首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
命名实体识别是自然语言处理中的一个关键。在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体。本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词。本文的命名实体识别模型是一种编码-解码模型,使用带有注意力机制的双向长短期记忆网络(BiLSTM with attention)进行编码,得到分词后文本的上下文特征和句式特征,使用条件随机场(CRF)方法进行解码,再结合语法规约的干预进行需求文档实体识别。实验表明,所提方法在需求文档领域识别效果优于普适的传统方法。  相似文献   

2.
软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于词项的匹配。实验结果表明,该方法不依赖于代码和文档预先定义的同义词库和知识库,并能一定程度上提高查全率和查准率。  相似文献   

3.
法律文书命名实体识别是智慧司法领域的关键性和基础性任务。在目前法律文书命名实体识别方法中,存在实体定义与司法业务结合不紧密、传统词向量无法解决一词多义等问题。针对以上问题,该文提出一种新的法律文本命名实体定义方案,构建了基于起诉意见书的法律文本命名实体语料集LegalCorpus;提出一种基于BERT-ON-LSTM-CRF(Bidirectional Encoder Representations from Transformers-Ordered Neuron-Long Short Term Memory Networks-Conditional Random Field)的法律文书命名实体识别方法,该方法首先利用预训练语言模型BERT根据字的上下文动态生成语义向量作为模型输入,然后运用ON-LSTM对输入进行序列和层级建模以提取文本特征,最后利用CRF获取最优标记序列。在LegalCorpus上进行实验,该文提出的方法F1值达到86.09%,相比基线模型lattice LSTM F1值提升了7.8%。实验结果表明,该方法可以有效对法律文书的命名实体进行识别。  相似文献   

4.
针对电力领域科技项目申请书评审工作中存在的项目与专家精准匹配难的问题,提出一种基于层次化语义表示的电力文本命名实体识别模型(Attention-RoBerta-BiLSTM-CRF, ARBC)以及基于语义-象形双特征空间映射的电力项目与电力专家的匹配策略。ARBC模型包括词嵌入模块、双向长短时记忆网络BiLSTM模块以及条件随机场(CRF)模块。其中,词嵌入模块同时使用了电力文本词语、句子和文档3个层面的信息。具体地,首先提取基于RoBerta预训练模型的词嵌入向量,进而通过引入文档层面基于词频-逆文档频率值的注意力机制增强句子的上下文表征能力,最终将词嵌入与句子嵌入进行线性加权融合,形成词语的层次化表征向量。在ARBC模型输出电力文本命名实体基础之上,进一步提出基于语义-象形双特征空间映射的项目文本与领域专家的实体匹配策略,最终实现项目与专家的有效精准匹配任务。实验结果表明,ARBC模型在2000篇电力项目摘要文本命名实体识别测试集上获得83%的F1值,显著高于基于Bert和RoBerta的文本表示方法。此外,基于双特征空间映射的实体匹配策略在电力文本与电力专家匹配任务中准确率达85%。  相似文献   

5.
该文提出了一种在低资源条件下,只利用无标注文档资源进行电力领域命名实体识别的无监督方法。该方法收集电力领域相关语料,利用串频统计技术更新电力领域词典,同时根据结构化电力数据解析出实体词及其类型,并通过表示学习获得每种实体类型的代表词表示。同时利用BERT全词遮盖技术对文本中的词语进行预测,计算文本词语和实体类型代表词之间的语义相似度,进而完成命名实体识别及类型判断。实验表明,该方法对数据条件要求低,具有很强的实用性,且易于复用到其他领域。  相似文献   

6.
目前自动化需求跟踪的研究广泛使用文本信息检索技术。然而信息检索会遗漏一些文本不相似但是实际相关的软件制品,导致自动化跟踪的精度不高。针对上述问题,提出利用开发者协作关系来进行优化,研发了基于开发者协作关系和信息检索的需求跟踪系统。该系统在进行需求跟踪时,首先用信息检索推荐与需求文本上相似的代码,然后从代码提交日志中挖掘开发者协作关系,根据开发者协作关系再推荐相关代码,用户根据两次推荐的结果确定正确的需求代码跟踪关系。试验结果表明该系统能够找到信息检索遗漏的需求跟踪关系,能够提高自动化跟踪的准确性,节省跟踪时间。  相似文献   

7.
针对现有命名实体识别方法主要考虑单个句子内的上下文信息,很少考虑文档级上下文影响的问题,文中提出基于机器阅读理解的中文命名实体识别方法,利用阅读理解思想,充分挖掘文档级的上下文特征,支撑实体识别.首先,针对每类实体,将实体识别任务转化为问答任务,构建问题、文本及实体答案三元组.然后,将三元组信息通过双向Transformer编码器进行预训练,再通过卷积神经网络捕捉文档级文本上下文信息.最后通过二进制分类器实现实体答案预测.在MSRA、人民日报公开数据集和自建数据集上的命名实体识别对比实验表明,文中方法性能较优,阅读理解思想对实体识别具有较好的作用.  相似文献   

8.
实体链接任务主要包括命名实体识别、查询扩展、候选实体选择、特征抽取和排序。本文针对查询词的扩展,提出了一种基于词向量的扩展方法。该方法利用连续词袋(Continuous bag-of-words,CBOW)模型训练语料中词语的词向量,然后将距离查询词近的词作为扩展词。词向量从语料中挖掘出词与词之间的语义相关性是对基于规则的查询扩展方法的补充,以此来召回候选实体。在特征抽取时,把文档之间的潜在狄利克雷分布(Latent Dirichlet allocation, LDA)的主题相似性作为特征之一。在计算文档相似性时,不再以高频词作为向量的维度,而是以基于词向量的相关词作为向量维度,由此得到文档的语义相似性特征 。最后利用基于单文档方法的排序学习模型把查询词链接到相应的候选实体。实验结果表明利用该方法能使F1值达到0.71,具有较好的效果。  相似文献   

9.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

10.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

11.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果. 而在针对电力文本的命名实体识别中, 由于对专业知识的依赖, 往往很难获取足够的监督数据, 即存在少样本场景. 同时, 由于电力行业的精确性要求, 相比于一般的开放领域任务, 电力领域的实体类型更多, 因此难度更大. 针对这些挑战, 本文提出了一个基于主题提示的命名实体识别方法. 该方法将每个实体类型视为一个主题, 并使用主题模型从训练语料中获取与类型相关的主题词. 通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句. 使用生成式预训练语言模型对提示句排序, 最终识别出实体与对应类型标签. 实验结果表明, 在中文电力命名实体识别数据集上, 相比于几种传统命名实体方法, 基于主题提示的方法取得了更好的效果.  相似文献   

12.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

13.
生物医学命名实体识别是从生物医学文献中获取关键知识的基础与关键任务.文中提出基于深层条件随机场的生物医学命名实体识别方法,构建多层结构的深层条件随机场模型,在不同层次的特征上结合增量式学习策略,选择最优特征集.最后通过基于〈全名,缩写〉对和基于领域信息的错误纠正算法,进一步修正识别结果.在生物医学命名实体评测语料JNLPBA上的实验验证文中方法的有效性.  相似文献   

14.
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。  相似文献   

15.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。  相似文献   

16.
ContextTraceability relations among software artifacts often tend to be missing, outdated, or lost. For this reason, various traceability recovery approaches—based on Information Retrieval (IR) techniques—have been proposed. The performances of such approaches are often influenced by “noise” contained in software artifacts (e.g., recurring words in document templates or other words that do not contribute to the retrieval itself).AimAs a complement and alternative to stop word removal approaches, this paper proposes the use of a smoothing filter to remove “noise” from the textual corpus of artifacts to be traced.MethodWe evaluate the effect of a smoothing filter in traceability recovery tasks involving different kinds of artifacts from five software projects, and applying three different IR methods, namely Vector Space Models, Latent Semantic Indexing, and Jensen–Shannon similarity model.ResultsOur study indicates that, with the exception of some specific kinds of artifacts (i.e., tracing test cases to source code) the proposed approach is able to significantly improve the performances of traceability recovery, and to remove “noise” that simple stop word filters cannot remove.ConclusionsThe obtained results not only help to develop traceability recovery approaches able to work in presence of noisy artifacts, but also suggest that smoothing filters can be used to improve performances of other software engineering approaches based on textual analysis.  相似文献   

17.
为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectional encoder representations from transformers)预训练语言模型的双向长短时记忆条件随机场(BERT-BiLSTM-CRF)命名实体识别模型;接着,在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层;最后,在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明,自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%,相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%,实验表明,该文方法能够提升源域模型迁移学习的效果,并完成跨领域命名实体识别模型的构建。  相似文献   

18.
中文命名实体识别在多个重要领域有广泛的运用,提出一种基于转移学习的算法进行中文命名实体识别,旨在提高识别的准确率和召回率。基于转移学习算法的中心思想是开始以一些简单的结论应用于问题,然后在每个步骤应用转换,选择出每次转换的最优结论再次应用于问题,当选择的转换在足够的空间内不再修改数据时算法停止。提出算法的规则模板和约束文件的获取方法,形成一个完整的用于中文命名实体识别的模型,并利用该模型进行实验,获得了较好的结果。  相似文献   

19.
提出了一个基于图像识别的跨模态实体链接模型。首先,利用人机交互的图像目标截取模块实现图像目标指代,支持多目标图像的输入,将复杂的目标检测任务简化为图像识别分类任务。然后,设计了一个基于轻量快速的MobileNet V2网络训练的图像识别模块,在自建目标图像数据集环境下进行测试。实验结果验证了该模型能够减小模型规模,降低对硬件的要求,通过有监督的数据增强,在少样本训练条件下达到了94.06%的识别准确度,缓解了数据缺乏的问题。最后,进一步借助模型输出的目标实体命名标签,完成跨模态实体链接任务,能够有效支撑图像输入条件下的知识图谱问答任务。  相似文献   

20.
As more and more commercial information can be obtained from the Internet, product named entity recognition plays an important role in market intelligence management. In this paper, a product named entity recognition method based on a skip-chain CRF model is proposed. This method considers not only the dependence between neighboring words but also the fact that product named entities are often connected by a connective. In this situation, the dependence between the words around the connective is more important than the dependence between neighboring words. This information improves the result of product named entity recognition as shown in the experiments. Experimental results on corpuses of mobile phone and digital camera demonstrate that the skip-chain CRF model works well and produces better results than the linear-chain CRF model.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号