首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着生物医学研究与信息化技术的迅速发展,临床医学文献数量呈指数级增长,利用文本挖掘技术自动提取医学知识逐渐成为当前研究热点。针对目前新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)临床文本研究匮乏、语料不足与标注质量不高等问题,本文结合UMLS医学语义网络和专家定义方式,制定医学实体标注规则,建立命名实体识别语料库,明确实体识别任务。其次,提出了一种基于MPNet与BiLSTM的COVID-19临床文本命名实体识别模型。通过预训练语言模型获得文本的向量化表示,解决了一词多义问题;采用双向长短期记忆网络,捕捉文本的长距离依赖;最后引入条件随机场,实现句子级序列注释,输出完整的最优标签序列。实验结果表明,MPNet-BiLSTM-CRF模型在COVID-19临床命名实体识别数据集上取得了较好的表现。  相似文献   

2.
<正>本文基于国网客服中心95598语音转文本数据,采用Ro BERTa语言模型对语句进行向量表示与特征提取,通过添加机制,模型可以关注与当前输出相关的信息,并获得文本中的潜在语义信息。通过对照组实验,本文构造的模型能够有效提高实体识别精准程度,且该模型在文本数据集上的抽取效果明显优于其他模型。命名实体识别(Named Entity Recognition,NER)获取有关子任务的信息,搜索分配给文本的对象,并将其分类到预定义的类别中。命名实体识别是自然语言处理中的热点研究方向之一,用于识别和分类文本中的相关实体的类别。命名实体识别的准确度,  相似文献   

3.
针对公安领域大数据分析业务的需求,尝试为公安警情文本建立专业语料库,并以此作为NER(命名实体识别)等任务的基础性工作.结合公安警情领域专家的指导建议,制定命名实体和实体关系的标注体系及详细标注规范.搜集整合国标及公安部标准相关标准资源,并利用标注工具对接处警文本进行多轮标注.通过构建特征要素库汇总实体信息,进而对公安...  相似文献   

4.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

5.
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。  相似文献   

6.
实体链接技术可以将文本中每个实体提及与知识库中的候选实体进行比较从而获取相应的目标实体,消除实体的歧义,是帮助计算机完成自然语言处理任务的核心技术之一。按照实体链接系统的模块对实体链接任务的相关技术进行总结,首先介绍实体链接的任务定义以及实体链接系统的构成;其次对实体链接系统的三大模块:候选实体生成、候选实体排序以及不可链接提及的相关技术做系统性的梳理;然后介绍实体链接相关数据集以及测评方法;最后对实体链接的未来进行展望。  相似文献   

7.
三元组抽取的目的是从非结构化的文本中获取实体与实体间的关系,并应用于下游任务。嵌入机制对三元组抽取模型的性能有很大影响,嵌入向量应包含与关系抽取任务密切相关的丰富语义信息。在中文数据集中,字词之间包含的信息有很大区别,为了改进由分词错误产生的语义信息丢失问题,设计了融合混合嵌入与关系标签嵌入的三元组联合抽取方法(HEPA),提出了采用字嵌入与词嵌入结合的混合嵌入方法,降低由分词错误产生的误差;在实体抽取层中添加关系标签嵌入机制,融合文本与关系标签,利用注意力机制来区分句子中实体与不同关系标签的相关性,由此提高匹配精度;采用指针标注的方法匹配实体,提高了对关系重叠三元组的抽取效果。在公开的Du IE数据集上进行了对比实验,相较于表现最好的基线模型(Cas Rel),HEPA的F1值提升了2.8%。  相似文献   

8.
去隐私化是2014 i2b2/UTHealth中的一个任务,目的在于识别并移除电子病历中的隐私信息.本文提出了一种基于支持向量机(SVMs)和条件随机场(CRFs)双层分类模型的去隐私化方法,经过预处理将病历文本进行词切分(tokenize)处理,并在此基础上抽取4类特征,训练SVM模型对隐私信息实体边界进行划分并将结果作为特征添加到特征集中,通过CRF训练多分类器,并通过该分类器对各个类别的隐私信息进行识别.实验表明双层分类模型对于隐私信息识别是有效的,结果F值达到0.9110.  相似文献   

9.
实体及关系抽取是实现海量数据知识化的关键,而现有实体及关系抽取方法应用于垂直领域时,表现出的效果很难达到实装应用水平。针对武器装备领域,文中在分析该领域文本数据特征的基础上,提出基于预训练模型与规则知识结合的武器装备实体及关系抽取方法,由实体抽取和关系抽取两个阶段组成。在实体抽取阶段,首先,利用BERT+BiLSTM+CRF模型完成武器装备实体的识别;然后,通过规则知识对领域性实体补充抽取。在关系抽取阶段,首先,利用BERT+BiGRU+CNN模型抽取武器装备实体间关系;然后,经过滤调模块对实体间关系抽取结果过滤和调整;最后,设计强领域性的关系抽取规则,用于实体间关系的补充抽取。在仿真数据集上对本文方法评测,结果表明在实体识别和关系抽取上的F1值分别为96.4%和95.1%,与基线相比均提升了约10%。同时,文中提出的实体及关系抽取方法可作为一种通用解决方案,推广至其他垂直领域。  相似文献   

10.
命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer模型和基于图神经网络模型的命名实体识别。此外,对深度学习的命名实体识别架构进行了介绍。最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。  相似文献   

11.
针对电力现场作业、设备使用安全等大量文本采用非结构化的形式制定、存储,信息自动挖掘难以实现的问题,提出一种融合注意力机制与ALBERT-BiGRU-CRF的方法.首先将ALBERT作为文本的字向量语义编码层,其次多头注意力机制融合到BiGRU网络模型中作为字符实体信息标签预测层,最终CRF作为全局标签优化层.该方法能够准确捕获专业领域字符间的依赖权重、语境、上下文语义关联等全方位特征.电力安全作业文本实体识别实验结果表明,融合注意力机制与深度学习识别方法比目前常用的算法模型识别F1值高3.05%~11.62%,具有较高准确率,识别效果较好.  相似文献   

12.
<正>近年来,基于神经网络的序列模型已成功应用到命名实体识别任务当中,但其局限性也十分明显,如对大规模人工标注数据的依赖。本文以“丝绸之路”专题文献为例,通过网络爬虫获取该专题的相关文献和论文摘要作为语料库,并采用无监督方法自动标注语料库中的未标记文本。然后基于模型BERT-Bi LSTM-CRF识别语料库中的各类实体。为了验证模型的性能,在“丝绸之路”专题语料库和不同的公共语料库上进行了多组实验,与不同的基线模型进行对比。实验结果表明,与其他常用模型相比,BERT-Bi LSTM-CRF模型在这些语料库上都获得了最高的F1值,在“丝绸之路”语料库上的F1值为88.89%。  相似文献   

13.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

14.
提出了基于元学习策略的分类器融合的新模型,使用了两类元学习策略将4种分类算法即Generalized Winnow算法、支持向量机算法、条件随机域算法和最大熵算法进行融合,并根据具体领域的应用任务和分类器特点选择了有效特征信息,在面向生物医学文本命名实体识别的应用中取得了较高识别精度。实验结果表明基于元学习策略的分类器融合方法明显优于单分类器方法,并且也优于基于判别规则的分类器融合方法。  相似文献   

15.
《无线电工程》2016,(2):27-30
针对话题跟踪任务及话题自身的特点,研究了面向该任务的文本表示技术,通过对文本表示技术的研究来提高话题跟踪系统的跟踪性能。通过分析报道文本的内容特点,提出了采用双向量来表示报道文本,将文本中的命名实体进行了单独处理。对命名实体识别技术进行了简要介绍,详细描述了基于双向量模型的话题跟踪系统的构建。实验结果表明,在话题跟踪中,双向量的文本示方法比单向量的文本表示方法更准确。  相似文献   

16.
陈芒 《现代传输》2023,(3):58-63
随着人工智能领域的快速发展,语音识别技术已经逐渐应用于各种场景,如电信客服,智能家居,实时翻译等领域。目前的语音识别应用需求,除了单纯高质量输出识别文本,为其识别结果添加合适语境的标点也是及其重要的。为提高文本自动标点的准确率,本文针对互联网数据提出了文本预处理方案,利用深层模型BERT提取隐含的上下文语义特征,并结合CRF加强对输出序列的约束,利用BERTCRF的融合模型进行标点预测,实验证明BERT-CRF在中文互联网测试集上平均F1分数相比BERT-Softmax提升了6.16%,并通过实验证实了CRF在标点预测任务起到关键作用。针对网络输入长度受限问题,本文提出了提出了截断式推理机制,使模型能够在保留预测效果的同时能够接受任意长度的输入,并通过实验得到模型最佳推理长度区间为60~80。  相似文献   

17.
医疗信息文本信息处理存在文本长、专业术语多、实体间关系复杂等问题,因此,提出一种基于ERNIEBi-GRU-Attention的医疗实体关系抽取模型。首先通过预训练模型ERNIE使向量获得丰富的语义信息和医疗先验知识,解决医疗专业术语问题;其次通过Bi-GRU-Attention进行语句编码,捕获有效上下文信息,有利于关系抽取;然后使用经典CRF输出实体标签;将实体标签特征和语句编码向量特征拼接进行一阶和二阶特征融合;最后通过分类器获得最终关系标签输出。通过在医疗数据集上验证,结果表明与其他模型相比,使用此模型医疗实体关系抽取的效果有所提升。  相似文献   

18.
深度迁移学习技术是通过深度神经网络从一项任务中获得的知识来解决其他相关任务,作为机器学习的一种研究方向,已经得到广泛应用。文章首先介绍了在自然语言处理任务中深度迁移学习应用于文本分类的背景,深度迁移学习的定义,其次通过文献分析了近几年深度迁移学习以实例、映射、网络和对抗四种迁移方式及在文本分类中应用的现状,最后对借助深度迁移学习模型完成文本分类任务的应用进行总结和展望。  相似文献   

19.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

20.
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,人们往往不能有效地获取、利用所需的网络知识资源.为了更好地利用网络知识资源,需要应用自动化、智能化的数据挖掘、信息提取方法.Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据.针对现有常用文本表示方法的局限性,本文提出了一种基于命名实体和词向量相结合的网络知识资源表示学习模型.并在算法知识领域内进行实现与应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示本文提出的方法在这些任务上取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号