首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
中文短文本分类最重要的是提取和表示短文本特征,传统的表示方法静态训练词向量,存在特征稀疏、语义不足等问题,对此提出一种基于改进词性信息和ACBiLSTM的中文短文本分类模型.用BERT模型动态训练词向量,引入词性因子优化,将得到的具有词性信息的词向量作为输入层信息;经过卷积神经网络初步提取局部特征,通过双向长短时记忆网络进一步得到具有上下文时序信息的中间向量表示;结合注意力机制,突显关键信息,获得最终文本特征表示.在FudanNews、SougouNews及THUCNews数据集上将该模型与其他模型进行对比,实验结果表明,其准确率和F1值显著提高.  相似文献   

2.
笔者提出了一种结合词性特征与注意力机制的双向门控循环神经网络分类模型。使用文本词性特征,提升了模型深入挖掘上下文之间隐含特征的能力,降低了噪音文本对模型的干扰。在隐层增加注意力机制,为隐层输入的特征分配相应概率权重,提升重要隐层特征的关注度。此分类模型的准确率为91.36%,相比于原模型BiGRU,提升近3个百分点,有显著改进效果。  相似文献   

3.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

4.
针对当前恶意代码检测方法严重依赖人工提取特征和无法提取恶意代码深层特征的问题,提出一种基于双向长短时记忆(Bidirectional Long Short Term Memory,Bi-LSTM)模型和自注意力的恶意代码检测方法。采用Bi-LSTM自动学习恶意代码样本字节流序列,输出各时间步的隐状态;利用自注意力机制计算各时间步隐状态的线性加权和作为序列的深层特征;通过全连接神经网络层和Softmax层输出深层特征的预测概率。实验结果表明该方法切实可行,相较于次优结果,准确率提高了12.32%,误报率降低了66.42%。  相似文献   

5.
《软件》2019,(2):1-5
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。  相似文献   

6.
针对传统知识图谱实体抽取方法需要大量人工特征和专家知识的问题,提出一种基于BILSTM_CRF模型的神经网络结构实体抽取方法。它既能使用双向长短时记忆网络BILSTM(Bidirectional Long Short-Term Memory)提取文本信息的特征,又可利用条件随机场CRF(Conditional Random Fields)衡量序列标注的联系。该方法对输入的文本进行建模,把句子中的每个词转换为词向量;利用BILSTM处理分布式向量得到句子特征;使用CRF标注并抽取实体,得到最终结果。实验结果表明,该方法的准确率和召回率更高,F1值提升约8%,具有更强的适用性。  相似文献   

7.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

8.
针对电力集控安全隐患文本实体边界模糊、常用实体识别模型识别准确率低的问题,提出了一种融合注意力机制与基于Transformer的双向编码器表示(BERT)-双向长短时记忆(BiLSTM)-条件随机场(CRF)的电力集控安全隐患数据实体识别模型。首先,利用BERT层将安全隐患文本编码表示为融合上下文语义的字位置和句位置的向量表示组,以减少实体识别误差积累。然后,提出了BiLSTM网络层挖掘电力集控隐患文本的语义特征并进行标签概率预测,在此基础上加入注意力机制增加重要信息的权重,提高重要信息对安全隐患语义信息的影响程度。最后,利用CRF层为标注结果进行综合打分,得到全局最优标签序列。在不同的电力安全隐患实体信息类别上的对比试验显示,所提模型的准确率为97.54%、召回率为96.47%、F值为97.13%,与传统算法相比总体效果提升了5%~21%。该结果证明了电力集控安全隐患实体识别模型的有效性。  相似文献   

9.
属性级情感分类旨在准确识别评论中属性的情感极性。现有的基于长短时记忆网络(LSTM)的方法大多只利用了属性和上下文的语义信息,而忽视了属性与上下文相对位置信息。针对此问题,提出一种利用相对位置信息来增强注意力的LSTM网络模型,解决属性级情感分类问题。首先,对上下文的输入层加入位置向量,利用两个LSTM网络对上下文和属性分别进行独立语义编码;然后,对上下文的隐藏层再次拼接位置向量,并利用属性隐藏层向量参与上下文不同词注意力权重的计算;最后,利用上下文生成的有效表示进行情感分类。该模型在SemEval 2014 Task4 Restaurant和Laptop两个不同领域数据集上进行了实验,在三分类实验中,准确率分别达到79.7%和72.1%。在二分类实验中,准确率分别达到92.1%和88.3%。相比多个基线模型,在准确率上都有一定的提升。  相似文献   

10.
为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空特征进行非线性的融合,并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估,实验结果表明,该方法可以同时考虑时空特征的内在关联,相对于使用线性融合的方法,利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。  相似文献   

11.
社交媒体上短文本情感倾向性分析作为情感分析的一个重要分支,受到越来越多研究人员的关注。为了改善短文本特定目标情感分类准确率,提出了词性注意力机制和LSTM相结合的网络模型PAT-LSTM。将文本和特定目标映射为一定阈值范围内的向量,同时用词性标注处理句子中的每个词,文本向量、词性标注向量和特定目标向量作为模型的输入。PAT-LSTM可以充分挖掘句子中的情感目标词和情感极性词之间的关系,不需要对句子进行句法分析,且不依赖情感词典等外部知识。在SemEval2014-Task4数据集上的实验结果表明,在基于注意力机制的情感分类问题上,PAT-LSTM比其他模型具有更高的准确率。  相似文献   

12.
为体现上下文信息对当前词汇词性的影响,在传统隐马尔可夫模型的基础上提出一种基于上下文的二阶隐马尔可夫模型,并应用于中文词性标注中。针对改进后的统计模型中由于训练数据过少而出现的数据稀疏问题,给出基于指数线性插值改进平滑算法,对参数进行有效平滑。实验表明,基于上下文的二阶隐马尔可夫模型比传统的隐马尔可夫模型具有更高的词性标注正确率和消歧率。  相似文献   

13.
基于完全二阶隐马尔可夫模型的汉语词性标注   总被引:12,自引:0,他引:12  
梁以敏  黄德根 《计算机工程》2005,31(10):177-179
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。  相似文献   

14.
方面级情感分析是自然语言处理的热门研究方向之一,相比于传统的情感分析技术,基于方面的情感分析是细粒度的,能够判断句子中多个目标的情感倾向,能更加准确地挖掘用户对目标的情感极性。针对以往研究忽略目标单独建模的问题,提出了一种基于双向长短期记忆神经网络(BiLSTM)的交互注意力神经网络模型(Bi-IAN)。该模型通过BiLSTM对目标和上下文分别进行建模,获得目标和上下文的隐藏表示,提取其中的语义信息。接下来利用交互注意模块学习上下文和目标之间的注意力,分别生成目标和上下文的表示,捕捉目标和上下文之内和之间的相关性,并重构评价对象和上下文的表示,最终通过非线性层得到分类结果。在数据集SemEval 2014任务4和Chinese review datasets上的实验训练显示,在正确率和F1-score上,比现有的基准情感分析模型有更好的效果。  相似文献   

15.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。  相似文献   

16.
吴惠甲  张家俊  宗成庆 《软件学报》2016,27(11):2691-2700
范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用束搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%).  相似文献   

17.
关键词抽取技术是自然语言处理领域的一个研究热点。在目前的关键词抽取算法中,深度学习方法较少考虑到中文的特点,汉字粒度的信息利用不充分,中文短文本关键词的提取效果仍有较大的提升空间。为了改进短文本的关键词提取效果,针对论文摘要关键词自动抽取任务,提出了一种将双向长短时记忆神经网络(Bidirectional Long Shot-Term Memory,BiLSTM)与注意力机制(Attention)相结合的基于序列标注(Sequence Tagging)的关键词提取模型(Bidirectional Long Short-term Memory and Attention Mechanism Based on Sequence Tagging,BAST)。首先使用基于词语粒度的词向量和基于字粒度的字向量分别表示输入文本信息;然后,训练BAST模型,利用BiLSTM和注意力机制提取文本特征,并对每个单词的标签进行分类预测;最后使用字向量模型校正词向量模型的关键词抽取结果。实验结果表明,在8159条论文摘要数据上,BAST模型的F1值达到66.93%,比BiLSTM-CRF(Bidirectional Long Shoft-Term Memory and Conditional Random Field)算法提升了2.08%,较其他传统关键词抽取算法也有进一步的提高。该模型的创新之处在于结合了字向量和词向量模型的抽取结果,充分利用了中文文本信息的特征,可以有效提取短文本的关键词,提取效果得到了进一步的改进。  相似文献   

18.
目前,老挝语词性标注研究处于初期,可用标注语料有限,且老挝语吸收了多种外来词,导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法,该文研究了老挝词的结构特征,并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息,因此模型还采用了字符级别的词向量来获取这些词缀信息。特别地,老挝语的句式较长,模型用注意力机制防止长远上下文特征丢失。实验结果表明: 相比其他研究方法,该模型的词性标注准确率在有限标注语料下取得更好的表现(93.24%)。  相似文献   

19.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

20.
本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器。初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号