期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《Planning》2022,(1)

中文文本实体识别,是自然语言处理的关键问题。传统的语言处理模型无法有效表示文本中的上下文语义信息,无法处理一词多义的不同语境,影响实体识别效果。提出了一种BERT-BiLSTM-CRF的实体识别模型,BERT预处理语言模型生成表征上下文语义信息的词向量,通过双向长短期记忆网络对生成的向量进行特征提取,自注意力机制能够有效获取文本语句中的长距离依赖,最后通过CRF进行解码生成实体标签序列。实验结果表明,该模型在微软亚洲研究院MSRA语料库和人民日报语料库上都取得了优异成绩,F1分别达到96.12%和95.88%。相似文献

2.

基于BERT+BiLSTM+CRF深度学习模型和多元组合数据增广的渔业标准命名实体识别

《Planning》2022,(4)

为解决渔业标准命名实体识别任务中部分实体语料分布稀疏导致的效果不佳问题,提出了基于多元组合数据增广(data augmentation method based on multiple combination, MCA)的渔业标准命名实体识别方法,该方法融合了基于领域词典的联合替换算法(joint replacement algorithm based on domain dictionary, DDR)、基于槽点保护的随机删除算法(random deletion algorithm based on slot protection, SPD)和基于槽点保护的随机插入算法(random insertion algorithm based on slot protection, SPI)进行语料库的数据增广,首先构建"水产品名称"同类词词典和领域同义词词典,通过两个词典分别对"水产品名称"类实体和随机词进行同类词替换和同义词替换,生成新的句子,以增加目标实体数量和句子的多样性,然后在基于槽点保护的情况下对原句子分别进行随机删除和随机插入操作,在保留实体及上下文特征的情况下进一步丰富语料的多样性,提高模型的泛化能力。结果表明,采用基于融合注意力机制的BERT+BiLSTM+CRF网络模型和多元组合数据增广方法进行渔业标准命名实体识别,准确率、召回率、F1值分别达到了91.73%、88.64%、90.16%,具有较好的效果。研究表明,基于多元组合数据增广的渔业标准命名实体识别方法有效解决了部分实体样本稀疏问题,提升了渔业标准命名实体识别的整体效果。相似文献

3.

基于深度学习的渔业领域命名实体识别

《Planning》2022,(2)

为了解决基于分词的渔业领域命名实体识别效果受分词准确度影响这一问题,采用一种基于深度学习的渔业领域命名实体识别方法。该方法使用神经网络训练得到字向量作为模型输入,避免了分词不准确对渔业领域命名实体识别效果造成的影响;针对渔业领域命名实体长度较长这一特点,使用LSTM单元保持较长时间记忆信息,并将标记信息融入到CRF模型中构建Character+LSTM+CRF实体识别模型。为验证方法的有效性,在渔业领域语料集上进行多组实验,结果表明,本研究中提出的Character+LSTM+CRF方法具有较好的效果,与LSTM模型相比较,在准确率、召回率、F值上分别提升了3.39%、2.99%、3.19%,对于渔业领域实体识别具有较好的效果。相似文献

4.

基于深度学习的渔业领域命名实体识别

《Planning》2018,(2)

为了解决基于分词的渔业领域命名实体识别效果受分词准确度影响这一问题,采用一种基于深度学习的渔业领域命名实体识别方法。该方法使用神经网络训练得到字向量作为模型输入,避免了分词不准确对渔业领域命名实体识别效果造成的影响;针对渔业领域命名实体长度较长这一特点,使用LSTM单元保持较长时间记忆信息,并将标记信息融入到CRF模型中构建Character+LSTM+CRF实体识别模型。为验证方法的有效性,在渔业领域语料集上进行多组实验,结果表明,本研究中提出的Character+LSTM+CRF方法具有较好的效果,与LSTM模型相比较,在准确率、召回率、F值上分别提升了3.39%、2.99%、3.19%,对于渔业领域实体识别具有较好的效果。相似文献

5.

基于注意力机制和深度学习模型的外来海洋生物命名实体识别

《Planning》2022,(3)

为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题,提出基于融合注意力机制的卷积神经网络(CNN)-双向门控循环单元网络(BiGRU)-条件随机场(CRF)网络模型进行外来海洋生物命名实体识别,并构造词向量、词性特征向量等特征作为网络模型的联合输入,以提升网络模型识别效果。结果表明:使用融合多特征向量的CNN-BiGRU-CRF网络模型对外来海洋生物名称实体、时间实体、地名实体3类实体上的命名实体识别结果平均准确率达到了90.62%,平均召回率达到了89.50%,平均F1值达到了90.05%,较传统命名实体识别方法均有较大提高。研究表明,本研究中提出的网络模型可以充分提取文本特征,解决了文本的长距离依赖问题,对外来海洋生物领域的命名实体识别具有较好的识别效果。相似文献

6.

电力文本挖掘技术研究综述

《Planning》2019,(22)

本文详细介绍了电力文本挖掘技术的主要研究方法和成果,就基于机器学习和深度学习的电力文本命名实体识别、命名实体关系抽取,国内研究现状做简要介绍,并对近期工作以及发展趋势做出总结和展望。相似文献

7.

多特征融合的中文实体关系抽取研究

《Planning》2019,(9):164-165

词性等特征在句子中扮演着重要的角色,往往能揭示命名实体之间的关系,而当前的实体关系抽取任务大多仅基于词向量进行,忽视了词性等对实体关系抽取任务有益的特征。因此,文章采用了一种多特征融合的方式进行中文实体关系抽取模型的训练,在以词向量作为输入单元的前提下融合了句子中词语的词性、距离实体对的位置、实体标注相关特征,并以双向长短期记忆网络结合注意力机制的模型进行了中文实体关系抽取的实验,实验结果表明,基于多特征融合的训练方式提升了中文实体关系抽取的效果。相似文献

8.

最大熵和HMM在中文词性标注中的应用

《Planning》2014,(11)

隐马尔可夫模型(HMM)基于n-元语法的标注效果虽然不错,但由于预测信息的不足,对汉语的词性标注,特别是未登录词的词性标注精度影响很大。而最大熵模型使用特征的形式,有效的利用了上下文信息,在一定的约束条件下可以得到与训练数据一致的概率分布,即使是未登录词,由于其丰富的上下文信息,对它的词性标注也起到了很好的预测作用。实验结果证明最大熵方法取得了较好的标注效果。相似文献

9.

基于BiLSTM的公共安全事件触发词识别

《Planning》2019,(9):1201-1207

提出基于双向长短期记忆网络(bidirectional long short-term memory,Bi LSTM)和前向神经网络的融合模型完成公共安全事件的触发词识别任务.首先通过Bi LSTM提取整段文本的高层语义特征,避免了以往机器学习方法需要人工提取特征的问题,其次采用特征拼接并在前向神经网络中识别并分类事件触发词.实验结果表明相较于基准模型,本文方法在中文突发事件语料库(Chinese emergency corpus,CEC)上取得了更为突出的性能,Micro-F1值为78. 47%.此外本文讨论了不同拼接特征在触发词识别任务中的重要性,对文本分析中3类特征(词性、句法、实体)的重要程度进行了比较和分析,得出句法特征对于事件触发词识别任务助益最大的结论. 相似文献

10.

一种新的本体的概念语义相似度计算方法

《Planning》2015,(14)

提出了一种新的语义相似度计算方法。该算法结合了被评估概念的高度、路径长度和公共细化度(specificity);改进了基于路径的语义相似度算法,利用本体结构,引入基于信息量算法的思想,使得新算法能够获取更多的语义信息,同时又不需要对于文本数据进行预处理;考虑本体中簇的粒度对本体的相似度计算有一定影响,在公式中添加概念在本体中的高度信息,达到低层次的概念间共享的信息要比高层次的概念间共享的信息更多。为了评估所提出的新方法,在实验中,用标准的生物医学系统命名法-临床术语(systematized nomenclature of medicine-clinical terms,SNOMED CT)作为输入本体,用已标注好的概念对集合作为数据集。实验结果表明,所提出的方法不仅保留了基于路径算法的简洁性,还优于现有语义相似度算法,证明了所提出方法的有效性。相似文献