首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
自然语言中否定是一个普遍且复杂的现象,其能反转命题的真值、情感及态度的极性、观点的立场等。否定信息识别不仅在信息检索、情感分析、文本挖掘、信息抽取等领域中具有重要意义,也对文本的深层语义理解具有促进作用。对否定信息识别研究进行了深入分析,介绍了否定信息识别的任务框架,并对否定触发词检测、否定覆盖域界定、否定焦点识别三个子任务的解决思路及方法进行了详细阐述,最后总结并指出了否定信息识别研究中存在的问题及新方向。  相似文献   

2.
自然语言文本中存在大量否定和不确定表述,识别这些信息并将其与确定性内容分离,对自然语言处理的下游应用,如信息抽取、信息检索、情感分析等,都具有十分重要的意义.与英语相比,面向汉语的否定与不确定覆盖域检测研究目前较为匮乏.提出了一个基于双向长短期记忆(bidirectional long short-term memory, BiLSTM)网络和条件随机场(conditional random fields, CRF)的融合模型,将覆盖域检测任务作为序列标注问题,针对给定的否定或不确定关键词,识别其在句子中的语义作用范围.该模型既具有LSTM(long short-term memory)网络能够利用前向与后向上下文信息的特性,同时又能够借助CRF 层获取输出标签之间的依赖关系,这得益于该框架能够有效地对序列信息及长距离上下文依赖信息进行编码的优势.在CNeSp语料集上的实验结果验证了模型的有效性,其中,在金融新闻子数据集上,否定与不确定覆盖域检测准确率分别达到79.16%和76.79%,比目前基于传统机器学习的汉语覆盖域检测方法分别提升了25.06%和34.46%.  相似文献   

3.
否定表达作为自然语言文本中常见的语言现象,对自然语言处理上层应用,如情感分析、信息抽取等,具有十分重要的意义。否定聚焦点识别任务是更细粒度的否定语义分析,其旨在识别出句子中被否定词修饰和强调的文本片段。该文将该任务作为序列标注问题,提出了一种基于双向长短期记忆网络结合条件随机场(BiLSTM-CRF)的否定聚焦点识别模型,其中,BiLSTM网络能够充分利用上下文信息并抓取全局特征,CRF层能够有效学习输出标签之间的前后依赖关系。在*SEM2012评测任务数据集上的实验结果表明,基于BiLSTM-CRF的否定聚焦点识别方法的准确率(accuracy)达到69.58%,与目前最好的系统相比,性能提升了2.44%。  相似文献   

4.
罗佳  李萌 《软件》2024,(1):18-20
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。  相似文献   

5.
社会突发事件的分类和等级研判作为应急处置中的一环,其重要性不言而喻.然而,目前研究多数采用人工或规则的方法识别证据进行研判,由于社会突发事件构成的复杂性和语言描述的灵活性,这对于研判证据识别有很大局限性.该文参考"事件抽取"思想,将事件类型和研判证据作为事件中元素,以BiLSTM-CRF方法进行细粒度的识别,并将二者结...  相似文献   

6.
针对推文中恶意软件名称识别任务存在的文本简短、非正式、实体类别单一以及实体歧义等问题,提出了一种基于BERT-BiLSTM-Self-attention-CRF的实体识别方法,以实现推文中恶意软件名称的自动识别。在BiLSTM-CRF模型的基础上,利用BERT模型编码单词语境信息,提升词嵌入的上下文语义质量,增强原有模型的语义消歧能力;同时,借助Self-attention机制学习单词间关系和句子结构特征,利用加权表征帮助单一类别实体的解码,以提升恶意软件名称实体的识别效果。通过构建包含恶意软件名称实体的推文标记数据集进行实验测试,结果表明,提出的方法可以实现更好的性能,其精确率、召回率、F1值分别为86.38%,84.73%,85.55%,相较于基线模型BiLSTM-CRF,F1值提升了12.61%。  相似文献   

7.
为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM-CRF的命名实体识别方法.将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过C RF层找到句子最适合的输出标签序列,从而确定命名实体.采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点.  相似文献   

8.
阅读理解中否定是一种复杂的语言现象,其往往会反转情感或态度的极性。因此,正确分析否定语义对语篇理解具有重要意义。现有否定语义分析方法存在两个问题:第一,研究的否定词较少达不到应用目的;第二,目前汉语否定语义标注只是标注整个句子,这无法明确否定语义。针对该问题提出基于汉语框架语义知识库(Chinese FrameNet)进行否定语义角色标注方法。在框架语义学理论指导下结合汉语否定语义特征对已由FrameNet继承的否定框架重新构建;为了解决捕捉长距离信息以及句法特征问题,提出一种基于Hybrid Attention机制的BiLSTMCRF语义角色标注模型,其中,Hybrid Attention机制层将局部注意与全局注意结合准确表示句子中的否定语义,BiLSTM网络层自动学习并提取语句上下文信息,CRF层预测最优否定语义角色标签。经过比对验证,该模型能够有效提取出含有否定语义信息,在否定语义框架数据集上F1值达到89.82%。  相似文献   

9.
为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM-CRF的命名实体识别方法.将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过C RF层找到句子最适合的输出标签序列,从而确定命名实体.采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点.  相似文献   

10.
针对目前从开源数据中挖掘结构化数据存在的数据繁复,新词多等问题,提出了一种命名实体识别的方法.该方法将文本进行实体规范、去停用词和加入词典特征等数据预处理后形成的信息作为输入,通过BiLSTM-CRF算法实现命名实体的识别.最后通过三种不同的语料对该方法进行了验证,实验结果表明了融合领域特征的命名实体识别达到了91.6...  相似文献   

11.
目前,信息抽取研究主要面向肯定性信息,而自然语言文本中包含了大量否定性和不确定性信息,为了将此类信息与肯定性信息区分开,有必要针对否定性与不确定性信息抽取进行深入研究.针对这一任务,首次构建了一个16 841句的汉语语料资源,利用序列标注模型与卷积树核模型,系统地探索了各种序列化依存特征和结构化句法树特征的有效性,并提出了元决策树模型,对二者进行融合.实验结果显示,该方法在否定性和不确定性信息抽取任务上的精确率分别达到69.84%和58.57%,为相关研究打下了坚实的基础.  相似文献   

12.
命名实体识别(NER)是自然语言处理中一项非常重要的基础任务。传统的机器学习方法在处理该任务时,主要依赖于人们的专业领域知识和人工提取的特征。为了在不需要人工特征的条件下获得较好的结果,该文提出了一种融合字词BiLSTM模型的命名实体识别方法。首先分别用BiLSTM-CRF训练得到基于字的模型Char-NER和基于词的模型Word-NER,然后将两个模型得到的分值向量进行运算和拼接,将拼接后的向量作为特征送入SVM进行训练,使用SVM对Char-NER和Word-NER进行模型融合。实验结果表明,该方法在不需要人工特征的条件下,在1998年《人民日报》语料和MSRA语料上对人名、地名、机构名识别的F值分别达到了94.04%、92.15%、87.05%和91.73%、93.20%、83.15%。  相似文献   

13.
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。  相似文献   

14.
结合语言模型条件随机场(CRF)和双向长短时记忆(BiLSTM)网络,构建一种BiLSTM-CRF模型,以提取商情文本序列中的招标人、招标代理以及招标编号3类实体信息。将规范化后的招标文本序列按字进行向量化,利用BiLSTM神经网络获取序列化文本的前向、后向文本特征,并通过CRF提取出双向本文特征中相应的实体。实验结果表明,与传统机器学习算法CRF相比,该模型3类实体的精确率、召回率和F1值平均提升15.21%、12.06%和13.70%。  相似文献   

15.
Identifying negative or speculative narrative fragments from facts is crucial for deep understanding on natural language processing (NLP). In this paper, we firstly construct a Chinese corpus which consists of three sub-corpora from different resources. We also present a general framework for Chinese negation and speculation identification. In our method, first, we propose a feature-based sequence labeling model to detect the negative or speculative cues. In addition, a cross-lingual cue expansion strategy is proposed to increase the coverage in cue detection. On this basis, this paper presents a new syntactic structure-based framework to identify the linguistic scope of a negative or speculative cue, instead of the traditional chunking-based framework. Experimental results justify the usefulness of our Chinese corpus and the appropriateness of our syntactic structure-based framework which has showed significant improvement over the state-of-the-art on Chinese negation and speculation identification.  相似文献   

16.
王凤玲 《计算机工程》2011,37(18):164-166
分析中文缩略语的构词方式,定义2个词之问的词形相似度,提出一种基于最长字符串匹配的相似度计算方法,探讨该方法在中文报道关系识别系统中的应用.实验结果表明,该相似度计算方法能够改善中文报道关系识别系统的性能,使系统的归一化检测开销降低12.96%,取得较好的识别效果.  相似文献   

17.
文字识别的难点和关键在于特征提取,文章把文字版面看作是含有特殊纹理信息的图像,利用Gabor变换,通过纹理分析提取出文字的全局特征。文字特征提取后,对其使用SVM进行训练学习。实验结果表明本方法能够较有效地提取出字符特征,并能有效地对字符进行分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号