排序方式: 共有45条查询结果,搜索用时 0 毫秒
1.
为解决谓语中心词识别中的唯一性问题,提出一种基于回归模型的谓语中心词识别模型,使用回归网络与神经网络结合直接输出预测的谓语中心词结束位置与开始位置。对数据集进行预训练,利用BILSTM层捕捉句子上下文的信息,通过卷积神经网络对句子中的特征进行进一步提取,使用多元线性回归层对特征进行线性回归计算,预测唯一谓语中心词的位置,训练过程中不断修正预测值与真实值的距离。使用中国判决网上获取的判决文书作为数据集进行唯一谓语中心词识别的实验,结果达到了82.99%的F值评分,验证了该模型的可行性和有效性。 相似文献
2.
3.
针对嵌套命名实体识别,神经网络模型中提出基于跨度的框架。该框架首先产生跨度种子,然后搭建分类器进行筛选。但单独对跨度区域进行分类存在丢失全局语义信息的问题。另外,在中文嵌套命名实体识别中,因为缺少分隔符且中文高度依赖上下文,跨度区域无法有效使用词边界特征,导致识别性能不佳。为解决上述问题,本文提出结合实体标签的中文嵌套命名实体识别模型(CEL)。该模型生成跨度种子后,在原句子的跨度区域开始及结束位置嵌入实体标签,再作为分类器输入,从而更好地学习到跨度种区域边界和上下文之间的语义依赖特征。论文在ACE2005中文数据集上进行实验,实验表明,CEL模型在F1值上达到了较好水平。 相似文献
4.
从学者主页中提取的学者细粒度信息(如学者研究方向、教育经历等)在大规模专业人才库的创建等方面具有非常重要的应用价值。针对现有学者细粒度信息提取方法无法有效利用上下文语义联系的问题,提出一种融合局部语义特征的学者信息提取方法,利用局部范围文本的语义联系对学者主页进行细粒度信息抽取。首先,通过全词掩码中文预训练模型RoBERTa-wwm-ext学习通用语义表征;之后将通用语义表征中的目标句表征向量与局部相邻文本表征向量共同输入卷积神经网络(CNN)实现局部语义融合,从而获得更高维度的目标句表征向量;最终将目标句表征向量从高维度空间映射到低维度标签空间实现学者主页细粒度信息的抽取。实验结果表明,使用此融合局部语义特征的方法进行学者细粒度信息提取的宏平均F1值达到93.43%,与未融合局部语义的RoBERTa-wwm-extTextCNN方法相比提高了8.60个百分点,验证了所提方法在学者细粒度信息提取任务上的有效性。 相似文献
5.
为改进传统特征方法很难获取中文句子中结构信息的问题,提出一种基于深度神经网络的句法要素识别模型。采用Bi-LSTM网络从原始数据中自动抽取句子中的结构信息和语义信息,利用Attention机制自动计算抽象语义特征的分类权重,通过CRF层对输出标签进行约束,输出最优的标注序列。经过对比验证,该模型能有效识别句子中的句法要素,在标注数据集上F1达到84.85%。 相似文献
6.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。 相似文献
7.
在狄利克雷多项回归(dirichlet-multinomial regression, DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression, DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。 相似文献
8.
针对现有命名实体识别方法存在的语义信息获取不全面问题,提出基于Affix-Attention的命名实体识别语义补充方法。将句子和句子中每个单词对应的词缀输入到编码层,使用Bi-LSTM提取上下文特征。在编码层设计特征融合模块、建模文本特征与词缀特征的对应关系,使用Affix-Attention同时关注文本信息和词缀信息进行语义补充。解码层使用CRF层得到目标序列。在生物医学领域的JNLPBA-2004和BC2GM基准数据集上的试验结果综合评价指标F1达到81.73%、84.73%;在公共数据集CONLL-2003中试验结果综合评价指标F1达到91.35%。试验结果表明,本研究方法能够有效获取词的内部语义特征,融合文本信息和词缀信息,达到语义补充的效果,提升命名实体识别的性能。 相似文献
9.
关系抽取旨在从句子中识别出实体对之间的关系类型。在关系抽取领域,目前主流的方法都使用了深度学习方法,但大部分方法在输入层没有对词向量进行深层次的讨论。针对这一不足,提出了一种基于多维语义映射的关系抽取方法,该方法的核心思想是将矩阵降维方法应用于神经网络模型输入层。通过将表示文本的词向量进行多维度的降维分解,使分解后的词向量能映射表示同一语句在不同维度上的语义信息。实验结果表明,在Chinese Literature Text和SemEval-2010 Task8数据集上F1值分别达到了75.3%和88.9%,验证了所提方法的有效性。 相似文献
10.
识别谓语中心词是理解句子的关键,对于分析汉语结构具有重要意义。汉语结构松散导致谓语中心词识别困难,成为中文信息处理中的难点问题。由于单个句子中只有一个谓语中心词,枚举跨度将会产生大量负样本,导致正负样本不平衡。谓语中心词及高度重叠的负例样本之间共享相同的上下文,语义相近,容易产生误报。为了解决这些问题,提出一种基于边界回归的谓语中心词识别方法。首先识别谓语中心词的边界,然后通过边界组合生成跨度,从而减少跨度负样本的数量并且降低计算的复杂度。通过边界回归模块,更新跨度在句子中相当于谓语中心词的位置,提高跨度边界的准确性。通过增加约束策略,输出唯一的谓语中心词。实验结果显示,该模型的F值达到了84.41%,验证了该模型识别谓语中心词的有效性。 相似文献