首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
针对电网调度领域实体识别准确率较低的问题,提出一种融合多头注意力机制和双向长短时记忆网络的电网调度领域中文命名实体识别方法。利用词向量表示电网调度语音识别后语句,并将生成的词向量序列输入双向长短时记忆网络(BiLSTM)挖掘其上下文语义特征,引入多头注意力机制重点关注文本中的实体词,挖掘其隐藏特征,同时通过条件随机场(CRF)计算序列标签的联合概率标注出实体识别结果。根据电网调度语音识别后文本特点自建标注数据集,并将电网调度语音识别文本中的命名实体细粒度划分为参数、设备、操作、系统、组织5个类别进行实验。其结果表明,该方法对电网调度领域实体识别具有更高的准确率和召回率,且F1值可达到93.63%,切实解决了电网调度领域实体识别任务中标注数据稀少和精度较低的问题,有助于电网调度领域知识图谱的构建。  相似文献   

2.
侯旭东  滕飞  张艺 《计算机应用》2022,42(9):2686-2692
针对在医疗命名实体识别(MNER)问题中随着网络加深,基于深度学习的识别模型出现的识别精度与算力要求不平衡的问题,提出一种基于深度自编码的医疗命名实体识别模型CasSAttMNER。首先,使用编码与解码间深度差平衡策略,以经过蒸馏的Transformer语言模型RBT6作为编码器以减小编码深度以及降低对训练和应用上的算力要求;然后,使用双向长短期记忆(BiLSTM)网络和条件随机场(CRF)提出了级联式多任务双解码器,从而完成实体提及序列标注与实体类别判断;最后,基于自注意力机制在实体类别中增加实体提及过程抽取的隐解码信息,以此来优化模型设计。实验结果表明,CasSAttMNER在两个中文医疗实体数据集上的F值度量可分别达到0.943 9和0.945 7,较基线模型分别提高了3个百分点和8个百分点,验证了该模型更进一步地提升了解码器性能。  相似文献   

3.
地理知识图谱作为一种科学领域的知识图谱,从概念探讨和初步实验阶段快速发展为地理信息科学领域的跨学科研究热点。地理命名实体识别是地理知识图谱构建的基础,直接影响着地理知识图谱的构建效率与质量。设计了一个地理知识图谱应用管理系统,针对其中地理实体库构建过程依赖人工制定规则以及信息提取不充分等问题,面向地理知识图谱构建过程进行地理命名实体识别研究。首先,通过人工标注方法构建了一个地理知识语料库;其次,通过BERT预训练模型得到结合语境信息的动态字向量,利用双向门控循环单元提取全局语义特征,并基于注意力机制获得增强语义特征;最后,通过CRF解码输出概率最大的全局最优标签序列,实现地理命名实体的自动识别。实验结果表明,相比传统的BiLSTM-CRF、BERT-BiLSTM-CRF等模型,所提出的基于BERT-BiGRU-CRF与多头注意力机制的模型在地理命名实体识别任务中表现更优,能够为地理知识图谱构建提供有效支撑。  相似文献   

4.
韩玉民  郝晓燕 《计算机应用》2022,42(6):1862-1868
准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域,然而面向材料领域的NER研究相对较少。针对材料领域NER中可用于监督学习的数据集规模小、实体词复杂度高等问题,使用大规模非结构化的材料领域文献数据来训练基于一元语言模型(ULM)的子词嵌入分词模型,并充分利用单词结构蕴含的信息来增强模型鲁棒性;提出以BiLSTM-CRF模型(双向长短时记忆网络与条件随机场结合的模型)为基础并结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型,以提高对关键词的敏感程度。得到的BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固体氧化物燃料电池(SOFC)NER数据集上的宏平均F1值(Macro F1值)提高了2~4个百分点,在SOFC细粒度实体识别数据集上的Macro F1值提高了3~8个百分点。实验结果表明,基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准确率。  相似文献   

5.
基于多头自注意力机制的Transformer作为主流特征提取器在多种自然语言处理任务中取得了优异表现,但应用于命名实体识别任务时存在一字多词、增加额外存储与词典匹配时间等问题。提出一种CNN-Head Transformer编码器(CHTE)模型,在未使用外部词典和分词工具的基础上,通过自注意力机制捕获全局语义信息,利用不同窗口大小的CNN获取Transformer中6个注意力头的Value向量,使CHTE模型在保留全局语义信息的同时增强局部特征和潜在词信息表示,并且应用自适应的门控残差连接融合当前层和子层特征,提升了Transformer在命名实体识别领域的性能表现。在Weibo和Resume数据集上的实验结果表明,CHTE模型的F1值相比于融合词典信息的Lattice LSTM和FLAT模型分别提升了3.77、2.24和1.30、0.31个百分点,具有更高的中文命名实体识别准确性。  相似文献   

6.
为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM-CRF的命名实体识别方法.将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过C RF层找到句子最适合的输出标签序列,从而确定命名实体.采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点.  相似文献   

7.
民航安全自愿报告系统收集的海量故障报告以非结构化文本形式存储,不便于相关人员针对大量不正常事件加以分析并采取控制措施;命名实体识别技术可以将海量非结构化文本中的关键要素进行检测和识别,抽取成类别分明的结构化信息,作为进一步分析不正常事件并加以控制的基础工作;将机场不正常事件报告作为研究对象,提出了一种基于神经网络的中文命名实体识别模型,对文本进行了结构化处理;针对随机选用的训练样本一些实体类别分布比较稀疏和人工标注费时费力的问题,提出了基于模型预测分数的样本选择策略,实现了预标注样本的高效筛选;经过实验验证,该模型与BiLSTM_CRF模型、BiLSTM_self-attention_CRF模型相比F1值均提高了约6个百分点,该样本选择策略明显提高了人工标注效率,筛选出足够多的含有稀疏实体的样本。  相似文献   

8.
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。  相似文献   

9.
中文自然语言文本中实体边界区分难、语法复杂度大,中文命名实体识别(NER)难度往往比英文命名实体识别大。针对中文NER中分词误差传播的问题,提出一种基于相互学习和SoftLexicon的中文命名实体识别模型MM-SLLattice。首先,向字级别表示的句子中加入词信息的模型;然后,在词信息的引入过程中通过结合开放词典与领域词典信息来提高模型的精度;最后,在训练过程中,引入了深度相互学习减小泛化误差提高模型的性能。实验结果表明,该模型在不同类型的中文数据集的实体识别能力有提升,MM-SLLattice在MSRA数据集上F1值为94.09%,比独立网络提高了0.41个百分点,对比实验中F1值也优于其他主流模型协同图形网络(CGN)、卷积注意力网络(CAN)、LR-CNN。所提模型可以更精确地提取中文实体。  相似文献   

10.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号