首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
为解决命名实体之间的复杂嵌套以及语料库中标注误差导致的相邻命名实体边界重叠问题,提出一种中文重叠命名实体识别方法。利用基于随机合并与拆分的层次化聚类算法将重叠命名实体标签划分到不同的聚类簇中,建立文字到实体标签之间的一对一关联关系,解决了实体标签聚类陷入局部最优的问题,并在每个标签聚类簇中采用融合中文部首的BiLSTM-CRF模型提高重叠命名实体的识别稳定性。实验结果表明,该方法通过标签聚类的方式有效避免标注误差对识别过程的干扰,F1值相比现有识别方法平均提高了0.05。  相似文献   

2.
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。  相似文献   

3.
闫璟辉  宗成庆  徐金安 《软件学报》2024,35(6):2923-2935
实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.  相似文献   

4.
命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。利用边界检测模块识别实体边界。在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。  相似文献   

5.
近年来,基于RNN的模型架构在命名实体识别任务中被广泛采用,但其循环特性导致GPU的并行计算能力无法被充分利用.普通一维卷积虽可以并行处理输入文本,显著缩短模型训练时长,但处理长文本时往往需要堆叠多个卷积层,进而增加梯度消失的风险.针对以上问题,该文采用可通过参数调节感受野范围的空洞卷积,并引入了带有残差连接的门控机制...  相似文献   

6.
7.
面向工艺文本中的命名实体,该文提出一种融入领域知识的神经网络命名实体识别方法,旨在对零件、工程图纸、参考标准、属性等12类命名实体进行识别.该方法针对工艺实体的特点,利用领域词典及规则预识别出部分实体,形成预识别实体特征,将预识别实体特征加入CNN-BiLSTM-CRF神经网络模型,指导训练与预测.实验结果表明,该方法...  相似文献   

8.
杨飘  董文永 《计算机工程》2020,46(4):40-45,52
在基于神经网络的中文命名实体识别过程中,字的向量化表示是重要步骤,而传统的词向量表示方法只是将字映射为单一向量,无法表征字的多义性.针对该问题,通过嵌入BERT预训练语言模型,构建BERT-BiGRU-CRF模型用于表征语句特征.利用具有双向Transformer结构的BERT预训练语言模型增强字的语义表示,根据其上下文动态生成语义向量.在此基础上,将字向量序列输入BiGRU-CRF模型中进行训练,包括训练整个模型和固定BERT只训练BiGRU-CRF2种方式.在MSRA语料上的实验结果表明,该模型2种训练方式的F1值分别达到95.43%和94.18%,优于BiGRU-CRF、Radical-BiLSTM-CRF和Lattice-LSTM-CRF模型.  相似文献   

9.
命名实体识别作为实现自然语言理解的关键步骤被广泛研究。传统机器算法需要大量特征工程而且领域自适应能力弱,准确率低。针对该问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型和深度卷积注意力网络DeepCAN(Deep Convolutional Attention Network)进行中文实体识别。该模型首先通过BERT预训练语言模型得到字的动态嵌入表示;然后,将得到的向量序列输入DeepCAN来获取序列化文本的上下文抽象特征;最后,通过CRF(Conditional Random Field)进行命名实体标注。实验表明,该模型在SIGHAN2006数据集上能够达到93.37%F1值,对比当前在该数据集上最好的实验结果提高了2.73%。  相似文献   

10.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

11.
针对电力领域科技项目申请书评审工作中存在的项目与专家精准匹配难的问题,提出一种基于层次化语义表示的电力文本命名实体识别模型(Attention-RoBerta-BiLSTM-CRF, ARBC)以及基于语义-象形双特征空间映射的电力项目与电力专家的匹配策略。ARBC模型包括词嵌入模块、双向长短时记忆网络BiLSTM模块以及条件随机场(CRF)模块。其中,词嵌入模块同时使用了电力文本词语、句子和文档3个层面的信息。具体地,首先提取基于RoBerta预训练模型的词嵌入向量,进而通过引入文档层面基于词频-逆文档频率值的注意力机制增强句子的上下文表征能力,最终将词嵌入与句子嵌入进行线性加权融合,形成词语的层次化表征向量。在ARBC模型输出电力文本命名实体基础之上,进一步提出基于语义-象形双特征空间映射的项目文本与领域专家的实体匹配策略,最终实现项目与专家的有效精准匹配任务。实验结果表明,ARBC模型在2000篇电力项目摘要文本命名实体识别测试集上获得83%的F1值,显著高于基于Bert和RoBerta的文本表示方法。此外,基于双特征空间映射的实体匹配策略在电力文本与电力专家匹配任务中准确率达85%。  相似文献   

12.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

13.
针对企业命名实体的识别任务的过程复杂、学科交叉、实时性差等难点,提出了一种基于并行子空间优化的方法.首先,建立系统的目标-约束方程完成系统级优化;其次,再通过构建文字检测、文字识别两级模型,并考虑现存不同模型的优缺点进行模型选择的方法对涉及学科进行并行优化;随后,再使用图像阈值、灰度化、霍夫变换等算法构建两级模型的衔接;最后,通过仿真实验,验证了本文方法相比其他两级文字检测识别模型的识别准确率提高了9%,推理速度提升约20%.  相似文献   

14.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

15.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

16.
为满足农业命名实体领域中多样而精确的需求,本文采用基于条件随机场的命名实体识别,将农业命名实体分为病虫害、作物、化肥及农药4种命名实体,并用自定义标注集对其进行标注,以ICTCLAS分词系统来对收集到的语料进行分词,通过添加多种不同的特征以提高识别率。最终训练得到的模型对各命名实体识别的准确率达到了93%以上,召回率达到了84%以上,证明对农业命名实体细致划分为多个实体是可行的。  相似文献   

17.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

18.
第六届中国健康信息处理会议(China Conference on Health Information Processing,CHIP2020)组织了中文医疗信息处理方面的6个评测任务,其中任务1为中文医学文本命名实体识别任务,该任务的主要目标是自动识别医学文本中的医学命名实体。共有253支队伍报名参加评测,最终37支队伍提交了80组结果,该评测以微平均F1值作为最终评估标准,提交结果中最高值达68.35%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号