首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
现有法语命名实体识别(NER)研究中,机器学习模型多使用词的字符形态特征,多语言通用命名实体模型使用字词嵌入代表的语义特征,都没有综合考虑语义、字符形态和语法特征。针对上述不足,设计了一种基于深度神经网络的法语命名实体识别模型CGC-fr。首先从文本中提取单词的词嵌入、字符嵌入和语法特征向量;然后由卷积神经网络(CNN)从单词的字符嵌入序列中提取单词的字符特征;最后通过双向门控循环神经网络(BiGRU)和条件随机场(CRF)分类器根据词嵌入、字符特征和语法特征向量识别出法语文本中的命名实体。实验中,CGC-fr在测试集的F1值能够达到82.16%,相对于机器学习模型NERC-fr、多语言通用的神经网络模型LSTM-CRF和Char attention模型,分别提升了5.67、1.79和1.06个百分点。实验结果表明,融合三种特征的CGC-fr模型比其他模型更具有优势。  相似文献   

2.
针对评论文本中评价对象的抽取任务,需要设计特征模板,而抽取结果往往受特征模板影响大的问题,提出一种端到端的神经网络评价对象抽取模型。分析条件随机场CRF在评价对象抽取任务中的特征模板设计;使用词向量嵌入模型在语义空间表示词语,并分析注意力机制在神经网络模型中的作用;将条件随机场模型与循环神经网络模型LSTM相结合,形成基于注意力机制的LSTM-CRF-Attention模型。在NLPCC2012和NLPCC2013两个数据集上进行实验,该模型的F值比CRF模型分别提高8.15%和11.03%。实验结果也同时验证词向量具备表示词语特征的能力,注意力机制能够有效提高神经网络模型中的评价对象抽取效果。  相似文献   

3.
针对目前网络评论文本情感分类准确性不高的问题,提出一种基于BERT和双向门控循环单元(BiGRU)的改进模型,使用能够表征文本丰富语义特征的BERT模型进行词向量表示,结合能够长期保留文本上下文关联信息的BiGRU神经网络提高模型的分类效果,并在此基础上引入注意力机制,突出文本中更能表达分类结果的情感词权重,提高情感分类的准确率。将上述模型分别在Acllmdb_v1和酒店评论两个公开数据集上进行测试,实验结果表明,该模型在中、英文文本情感分类任务中都获得了良好的性能。  相似文献   

4.
大多数文本情感分析方法不能有效地反映文本序列中不同单词的重要程度,并且不能获得足够的文本信息。提出了一种双通道混合神经网络的文本情感分析模型,混合神经网络层在胶囊网络(Capsule Network)模型和双向门限循环单元(BiGRU)模型之后分别引入注意力机制,使其自适应地感知上下文信息并提取影响文本情感分析的文本特征,将两种模型提取的特征进行融合。将两种不同的词向量经过混合神经网络层得到的结果进一步融合,由Softmax分类器进行分类。在三个标准数据集上的实验结果证明了该模型的有效性。  相似文献   

5.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

6.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

7.
评价对象是指某段评论中评价词语所修饰的对象或对象的属性。为了识别评论中的评价对象,提出基于Co-training的训练CRF模型方法。该方法首先人工标注少量的原始数据集,使用Co-training方式对未标注数据进行自动识别,以扩大已标注训练数据。通过原始标注数据集和Co-training方式标注数据集,训练CRF模型。在汽车领域中,对待标注汽车评论语料中评价对象识别的精确率为67.483%,召回率为67.832%。  相似文献   

8.
涉案微博评价对象抽取旨在从微博评论中识别出用户评价的案件对象词项,有助于掌握大众对于特定案件不同方面的舆论。现有方法通常将评价对象抽取视为一个序列标注任务,但并未考虑涉案微博的领域特点,即评论通常围绕正文中出现的案件关键词展开讨论。为此,本文提出一种基于关键词结构编码的序列标注模型,进行涉案微博评价对象抽取。首先从微博正文中获取多个案件关键词,并使用结构编码机制将其转换为关键词结构表征,然后将该表征通过交互注意力机制融入评论句子表征,最后利用条件随机场(Conditional random field, CRF)抽取评价对象词项。在两个案件的数据集上进行了实验,结果表明:相较于多个基线模型,本文方法性能得以提升,验证了所提方法的有效性。  相似文献   

9.
基于CRF的先秦汉语分词标注一体化研究   总被引:2,自引:0,他引:2  
该文探索了古代汉语,特别是先秦文献的词切分及词性标注。首先对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。结果表明,一体化分词比单独分词的准确率和召回率均有明显提高,开放测试的F值达到了94.60%;一体化词性标注的F值达到了89.65%,比传统的先分词后标注的“两步走”方法有明显提高。该项研究可以服务于古代汉语词汇研究和语料库建设,以弥补人工标注的不足。  相似文献   

10.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号