首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 57 毫秒
1.
军事命名实体识别能够为情报分析、指挥决策等环节提供自动化辅助支持,是提升指挥信息系统智能化程度的关键技术手段。由于中文文化和英文文化的不同,中国语言文字中实体识别第1步是对文章字句进行分词,分词的不准确则会直接造成命名实体识别上的精度损失。此外,一段字句中命名实体的识别是与上下文信息相关的,不同字词对实体识别的贡献度不一定是正向的,多余的字词信息只会对命名实体识别起到负面作用。针对上述挑战,提出了 Lattice长短时记忆神经网络 (LSTM) 结合自注意力机制(self-attention) 的融合网络模型。Lattice-LSTM 结构可以实现对字句中特殊字词的识别,并将深层的字词信息聚合到基于字符的 LSTM-CRF 模型中。Self-attention结构可以发现同一句子中词之间的关系特征或语义特征。使用人工标注的小规模样本集进行实验,结果表明该模型相较于几种基线模型取得了更理想的效果。  相似文献   

2.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

3.
为在模型训练期间保留更多信息, 用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展, 并结合协同训练方法来应对医疗文本标注数据缺乏的情况, 构建出改进模型CTD-BLSTM (Co-Training Double word embedding conditioned Bi-LSTM)用于医疗领域的中文命名实体识别. 实验表明, 与原始BLSTM与BLSTM-CRF相比, CTD-BLSTM模型在语料缺失的情况下具有更高的准确率和召回率, 能够更好地支持医疗领域知识图谱的构建以及知识问答系统的开发.  相似文献   

4.
运用命名实体识别算法从海量医疗文本中抽取信息,对于构建知识图谱、对话系统等具有重要意义.然而医疗实体间存在嵌套、歧义和专业术语缩写多样性的问题,传统的基于统计的方法对于实体边界的定位存在较大偏差.考虑到医疗文本的复杂性,提出了多层Transformer模型,基于其multi-head和self-attention机制提...  相似文献   

5.
中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称.中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色.全面回顾了现有的基于神经网络的单...  相似文献   

6.
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。  相似文献   

7.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。  相似文献   

8.
9.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

10.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

11.
为了使长短时记忆网络(Long Short-Term Memory,LSTM)更精确地提取句子较远的特征信息,提出一种融合顺序遗忘编码(Fixed-size Oradinally Forgetting Encoding,FOFE)结合循环神经网络的命名实体识别算法。利用FOFE可以保留任意长度句子信息的编码方式来增强LSTM对句子特征的提取能力。利用Bi-LSTM和FOFE编码分别对向量化表示的文本进行特征提取和编码表示。结合得到的两个特征向量,通过注意力机制对Bi-LSTM的输入与输出之间的相关性进行计算,最后利用条件随机场学习标签序列的约束。该算法分别在英文和中文两种语言的数据集中进行了对比实验,F1值分别达到了91.30和91.65,验证了该方法的有效性。  相似文献   

12.
随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息.CHIP2018将中文电子病历临床医疗命名实体识别作为评测任务,即从中文电子病历中抽取三种恶性肿瘤相关的实体.结合三种实体的特点和实体间的依赖关系,提出基于多神经网络协作的复杂医疗命名实体识别方法,并实现了句子级别的模型迁移...  相似文献   

13.
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降.针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF.利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应...  相似文献   

14.
基于CRF和规则相结合的地理命名实体识别方法   总被引:1,自引:0,他引:1  
为了识别文本中海量的地理命名信息,以CRF(条件随机场)模型识别为基础,加入制定的规则,来提高CRF模型识别的召回率,从而提高整体的地理命名实体识别效果。通过选取适合的地理命名实体识别的特征模板,验证特征的有效性以及分析CRF模型识别结果中的未识别实体样本,设计针对未识别实体的规则用以修正识别结果。实验表明,对地名和组织名结合规则进行修正后的F值达到了91.61%和85.74%,有了显著提高。  相似文献   

15.
中文微博命名实体的有效识别对使用微博进行社会舆论监测具有重要意义。鉴于微博更新速度快、语言不规范、噪声多,使得命名实体识别成本高、识别效率低。针对这些问题,提出基于众包标注的中文微博命名实体识别的方法。对众包工作者的能力进行评估,使用最大期望算法(EM算法)对评估后的能力值进行分析学习,过滤掉每个标注者的噪声并对众包标注的结果进行优化,从而确定最后的命名实体。实验结果表明,该方法能够有效地提高中文微博中命名实体识别的准确率。  相似文献   

16.
在生态治理技术领域中,有大量的文献数据没有得到充分的开发与利用.提出基于字嵌入的BiL-STM-IDCNN-CRF模型,结合BiLSTM网络和IDCNN网络获取到的不同粒度的特征.在生态治理技术数据集中取得的F1值为0.7207,均高于现有主流模型取得的成绩.实验验证了字嵌入方法的有效性和模型的性能,同时也为其他文本书...  相似文献   

17.
一种基于共坐标上升算法的人名识别方法   总被引:1,自引:1,他引:0  
共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。  相似文献   

18.
将命名实体识别技术运用于临床业务系统中,实现对临床医嘱的实体识别,提高临床医疗的工作效率。以上海市胸科医院为研究背景,提出嵌入于临床业务信息系统的临床医嘱实体识别方法。基于历年医嘱数据建立专项语料词库,运用CRF模型进行实时实体识别。随着识别系统上线使用,共处理了8362条医嘱,实验结果表明其准确率较好,在信息支撑度方面提升了医护人员的满意度。医嘱实体识别技术能够有效提高执行效率和医疗质量,也为医疗领域的知识挖掘工作提供了参考依据。  相似文献   

19.
提出了一种基于位置概率模型的中文人名识别算法.系统的知识源来自于两个方面:人名列表以及标注语料库中提取的人名的左右边界词语.识别过程是:首先根据位置概率模型识别出篇章中可能的人名,然后扩散到整个篇章来召回遗漏人名,最后附加几条启发式规则来对结果进行修正.对40篇新闻语料共计120KB进行开放测试,准确率达80.5%,召回率为76.1%.  相似文献   

20.
一种基于字符HMM模型级联的手写体西文单词识别方法   总被引:3,自引:0,他引:3  
提出了一种识别西文单词的级联HMM方法,在字符HMM模型基础上按照统计语法将各模型依概率连接,它扩展了HMM的模式描述方式,允许在级联模型上表征状态的跳跃、转移和驻留等,通过共享字符模型来描述级联状态转移概率,可以更加可靠地刻画手写体单的行为特点,采用面向在的Viterbi算法,在完整的单词采样序列输入后直接识别,无需做字符的分割和标注,从而避免了在字典中为每个单词建立模型而导致的识别不同步问题,用WE-1单词样本库进行试验,级联模型法的第1侯选识别经为89.26%,带有连字模型的HMM法的第1候选识别率为82.34%,降低错误识别率达39.18%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号