首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

2.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

3.
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。  相似文献   

4.
三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的Du IE数据集上进行了对比实验,相较于表现最好的基线模型(Cas Rel),HEPA的F1值提升了2.8%。  相似文献   

5.
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息.本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别.实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110.  相似文献   

6.
命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。  相似文献   

7.
针对电力现场作业、设备使用安全等大量文本采用非结构化的形式制定、存储,信息自动挖掘难以实现的问题,提出一种融合注意力机制与ALBERT-BiGRU-CRF的方法.首先将ALBERT作为文本的字向量语义编码层,其次多头注意力机制融合到BiGRU网络模型中作为字符实体信息标签预测层,最终CRF作为全局标签优化层.该方法能够准确捕获专业领域字符间的依赖权重、语境、上下文语义关联等全方位特征.电力安全作业文本实体识别实验结果表明,融合注意力机制与深度学习识别方法比目前常用的算法模型识别F1值高3.05%~11.62%,具有较高准确率,识别效果较好.  相似文献   

8.
<正>近年来,基于神经网络的序列模型已成功应用到命名实体识别任务当中,但其局限性也十分明显,如对大规模人工标注数据的依赖。本文以“丝绸之路”专题文献为例,通过网络爬虫获取该专题的相关文献和论文摘要作为语料库,并采用无监督方法自动标注语料库中的未标记文本。然后基于模型BERT-Bi LSTM-CRF识别语料库中的各类实体。为了验证模型的性能,在“丝绸之路”专题语料库和不同的公共语料库上进行了多组实验,与不同的基线模型进行对比。实验结果表明,与其他常用模型相比,BERT-Bi LSTM-CRF模型在这些语料库上都获得了最高的F1值,在“丝绸之路”语料库上的F1值为88.89%。  相似文献   

9.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

10.
提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。  相似文献   

11.
《无线电工程》2016,(2):27-30
针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名实体识别技术进行了简要介绍,详细描述了基于双向量模型的话题跟踪系统的构建。实验结果表明,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。  相似文献   

12.
医疗信息文本信息处理存在文本长、专业术语多、实体间关系复杂等问题,因此,提出一种基于ERNIEBi-GRU-Attention的医疗实体关系抽取模型。首先通过预训练模型ERNIE使向量获得丰富的语义信息和医疗先验知识,解决医疗专业术语问题;其次通过Bi-GRU-Attention进行语句编码,捕获有效上下文信息,有利于关系抽取;然后使用经典CRF输出实体标签;将实体标签特征和语句编码向量特征拼接进行一阶和二阶特征融合;最后通过分类器获得最终关系标签输出。通过在医疗数据集上验证,结果表明与其他模型相比,使用此模型医疗实体关系抽取的效果有所提升。  相似文献   

13.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

14.
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,人们往往不能有效地获取、利用所需的网络知识资源.为了更好地利用网络知识资源,需要应用自动化、智能化的数据挖掘、信息提取方法.Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据.针对现有常用文本表示方法的局限性,本文提出了一种基于命名实体和词向量相结合的网络知识资源表示学习模型.并在算法知识领域内进行实现与应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示本文提出的方法在这些任务上取得了较好的效果.  相似文献   

15.
半监督学习是一种结合监督学习与无监督学习的学习方法,通过利用未标记数据,提高标记数据所建立模型的效果,目的是减少传统的机器学习任务中对大量标注数据的需求、降低人工成本.在中文电子病历实体识别领域,由于缺少足够的标注数据,且医学文本专业性较强、人工标注成本高,可以利用半监督学习方法,提升少量标注数据的训练效果.本文介绍了中文电子病历实体识别的研究背景和半监督学习的相关研究,并应用改进后的Tri-Training算法,提升中文电子病历实体识别模型的效果.  相似文献   

16.
曲晓东  李佳昊 《移动信息》2023,45(6):234-236
作为众多任务的子任务,命名实体识别的发展较为迅速,但在中文命名实体识别领域,还存在不少问题,嵌套实体就是其中一个难点。文中根据结点的传入和传出,使用了图卷积神经网络提取图特征,改善了嵌套实体的准确度,并通过使用图神经网络处理中文命名实体识别的问题,更好地融合了词典信息。另外,文中分别对两类数据集进行了实验验证,结果显示,相比其他模型,该模型有所提高。  相似文献   

17.
针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.  相似文献   

18.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效.  相似文献   

19.
简单介绍了AUTOLISP语言及文本实体数据表的结构,在此基础上,提出了拆分AUTOCAD文本实体的方法并给出了相应的程序。  相似文献   

20.
《信息通信》2021,(1):84-86
目的:比较条件随机场、长短期记忆模型、BiLSTM-CRF和使用Bert预训练字符向量的BiLSTM-CRF四种命名实体识别模型。方法:分析比较四种模型在人民日报数据集和MSRA数据集上对人名、地点和机构三类实体的识别性能。结果:单一神经网络LSTM在缺乏训练数据支持的结果表现不如CRF,而使用了Bert预训练字符向量的神经网络即使使用较少的训练数据仍能获得较其他模型更好的结果,在人民日报数据集和MSRA数据集上的F值均达到0.9。结论:单一神经网络模型在缺乏训练数据时有较大局限性,使用Bert预训练字符向量的神经网络模型在中文命名实体识别任务中存在较大优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号