首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
中文短文本具有长度短以及上下文依赖强的特点。目前主流的基于词向量的双向循环神经网络分类方法依赖于词向量语义表达以及上下文特征提取能力,其分类准确率有待进一步改善。针对此问题,论文提出融合语义增强的中文短文本分类方法,该方法提出融合语义增强的思想,在词向量表示阶段,引入Bert生成融合字、文本以及位置的向量作为训练文本的词表征进行文本语义增强,接着输送到Bi-GRU网络中提取上下文关系特征,并通过多头注意力机制调整权值强化重要特征表达,最后使用softmax分类器进行文本分类。通过与其他主流方法进行对比论证,实验表明,论文提出的方法在短文本分类效果上有显著提升。  相似文献   

2.
为解决文本语言输出标签序列过于模糊的问题,建立一种相对平稳的级联重排序模式,提出基于Self-Attention的多语言语义角色标注联合学习方法.按照卷积神经网络的框架连接需求,搭建卷积神经网络、处理文本词向量及提取分类特征实施多语言文本词的向量化处理,并根据分类特征的提取行为,完成基于Self-Attention理论的多语言文本分类调节.实验结果表明,该方法的文本语言输出标签序列的模糊性水平明显降低,而级联重显示指标却大幅提升,整个物理排序模式开始逐渐趋于稳定.  相似文献   

3.
为解决文本语言输出标签序列过于模糊的问题,建立一种相对平稳的级联重排序模式,提出基于Self-Attention的多语言语义角色标注联合学习方法.按照卷积神经网络的框架连接需求,搭建卷积神经网络、处理文本词向量及提取分类特征实施多语言文本词的向量化处理,并根据分类特征的提取行为,完成基于Self-Attention理论的多语言文本分类调节.实验结果表明,该方法的文本语言输出标签序列的模糊性水平明显降低,而级联重显示指标却大幅提升,整个物理排序模式开始逐渐趋于稳定.  相似文献   

4.
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。  相似文献   

5.
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度.  相似文献   

6.
马成龙  颜永红 《自动化学报》2016,42(11):1711-1717
在短文本分类中,面对特征稀疏的短文本,如何充分利用文本中的每一个词语成为关键.本文提出概率语义分布模型的思想,首先通过查询词矢量词典,将文本转换为词矢量数据;其次,在概率语义分布模型的假设下利用混合高斯模型对无标注的文本数据进行通用背景语义模型训练;利用训练数据对通用模型进行自适应得到各个领域的目标领域语义分布模型;最后,在测试过程中,计算短文本属于领域模型的概率,得到最终的分类结果.实验结果表明,本文提出的方法能够从一定程度上利用短文本所提供的信息,有效降低了对训练数据的依赖性,相比于支持向量机(Support vector machine,SVM)和最大熵分类方法性能相对提高了17.7%.  相似文献   

7.
针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中.具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求.实验发现,基于ERNIE+CN...  相似文献   

8.
鲁强  刘兴昱 《计算机应用》2018,38(7):1846-1852
针对单一事实类问答系统中问句和关系的语义匹配在小规模标注样本中难以获得较高准确率的问题,提出一种基于循环神经网络(RNN)的迁移学习模型。首先,使用基于RNN的序列到序列无监督学习算法,通过序列重构的方式在大量无标注样本中学习问句的语义空间分布,即词向量和RNN;然后,通过给神经网络参数赋值的方式,使用此语义空间分布作为有监督语义匹配算法的参数;最后,通过使用问句特征和关系特征计算内积的方式,在有标注样本中训练并生成语义匹配模型。实验结果表明,在有标注数据量较少而无标注数据量较大的环境下,与有监督学习方法Embed-AVG和RNNrandom相比,所提模型的语义匹配准确率分别平均提高5.6和8.8个百分点。所提模型通过预学习大量无标注样本的语义空间分布可以明显提高在小规模标注样本环境下的语义匹配准确率。  相似文献   

9.
基于CPB (Chinese Proposition Bank)提出一种基于LSTM-Bi-LSTM的汉语自动语义角色标注方法,并提出语义密度聚类进行数据预处理以及"模糊"机制利用于词向量转换过程。语义密度聚类通过密度的概念对谓词进行全局统一的聚类,将稀疏谓词替换为其所属聚类集合中的常见谓词;利用语义距离概念,将"模糊"机制引入词向量的转换过程,能适当地减少词向量的语义性,并提升与谓词词向量的相关性。利用Bi-LSTM网络自动学习特征表达,然后利用CRF和IOBES标注策略转化为词序列标注问题,引进一种词性学习方法;利用LSTM网络学习生成的词性特征向量与"模糊化"后的词向量融合后一同作为模型的输入向量;训练过程中采用了小批量梯度下降算法和Dropout正则化,这既加快了训练速度,又易于得到全局最优解,还防止了参数过拟合情况的出现。多组对比实验表明,该方法标注结果的F值最高达到了81.24%。  相似文献   

10.
词向量在自然语言处理中起着重要的作用,近年来受到越来越多研究者的关注。然而,传统词向量学习方法往往依赖于大量未经标注的文本语料库,却忽略了单词的语义信息如单词间的语义关系。为了充分利用已有领域知识库(包含丰富的词语义信息),文中提出一种融合语义信息的词向量学习方法(KbEMF),该方法在矩阵分解学习词向量的模型上加入领域知识约束项,使得拥有强语义关系的词对获得的词向量相对近似。在实际数据上进行的单词类比推理任务和单词相似度量任务结果表明,KbEMF比已有模型具有明显的性能提升。  相似文献   

11.
句子是字或词根据语法规则进行组合的编码,句义分割是句子组合规律的解码问题,即对句义进行解析。在藏文分词后直接进行语义分析,其颗粒度过小,容易出现词语歧义,而以句子为分析单位,则颗粒度过大,不能较好地揭示句子的语义。为此,提出一种藏文句义分割方法,通过长度介于词语和句子之间的语义块单元进行句义分割。在对句子进行分词和标注的基础上,重新组合分词结果,将句子分割为若干个语义块,并采用空洞卷积神经网络模型对语义块进行识别。实验结果表明,该方法对藏文句义分割的准确率达到94.68%。  相似文献   

12.
近年来,深度学习取得了重大突破,融合深度学习技术的神经机器翻译逐渐取代统计机器翻译,成为学术界主流的机器翻译方法。然而,传统的神经机器翻译将源端句子看作一个词序列,没有考虑句子的隐含语义信息,使得翻译结果与源端语义不一致。为了解决这个问题,一些语言学知识如句法、语义等被相继应用于神经机器翻译,并取得了不错的实验效果。语义角色也可用于表达句子语义信息,在神经机器翻译中具有一定的应用价值。文中提出了两种融合句子语义角色信息的神经机器翻译编码模型,一方面,在句子词序列中添加语义角色标签,标记每段词序列在句子中担当的语义角色,语义角色标签与源端词汇共同构成句子词序列;另一方面,通过构建源端句子的语义角色树,获取每个词在该语义角色树中的位置信息,将其作为特征向量与词向量进行拼接,构成含语义角色信息的词向量。在大规模中-英翻译任务上的实验结果表明,相较基准系统,文中提出的两种方法分别在所有测试集上平均提高了0.9和0.72个BLEU点,在其他评测指标如TER(Translation Edit Rate)和RIBES(Rank-based Intuitive Bilingual Evaluation Score)上也有不同程度的性能提升。进一步的实验分析显示,相较基准系统,文中提出的融合语义角色的神经机器翻译编码模型具有更佳的长句翻译效果和翻译充分性。  相似文献   

13.
针对基于词向量的神经网络模型在产品属性情感分析中效果不佳的问题,提出一种集成离散特征和词向量特征的开关递归神经网络模型。首先,通过直接循环图为语句建模,采用开关递归神经网络模型完成产品属性情感分析任务;然后,在开关递归神经网络模型中集成离散特征和词向量特征;最后,分别在流水线、联合、折叠三种任务模型中完成属性提取和情感分析任务。以宏观F1分数作为评估指标,在SemEval-2014的笔记本电脑和餐馆评论数据集上做实验。开关递归神经网络模型的F1分数为:48.21%和62.19%,超过普通递归神经网络模型近1.5个百分点,因而开关递归神经网络能够有效捕获复杂特征,提升产品属性情感分析的效果。而集成离散特征和词向量特征的神经网络模型的F1分数为:49.26%和63.31%,均超过基线结果0.5到1个百分点,表明离散特征和词向量特征互相促进,另一方面,也表明仅仅基于词向量的神经网络模型仍有提升空间。三种任务模型中,流水线模型的F1分数最高,表明应将属性提取和情感分析任务分开完成。  相似文献   

14.
互联网是广告推广的重要媒介,但是低质、诈骗、违法等违规广告也大量充斥其中,严重污染网络空间,因此,实现恶意广告的有效甄别对构建安全清朗的网络环境意义重大。针对各类违法违规中文广告内容的识别需求,利用Bert(bidirectional encoder representation from transformers)和Word2vec分别提取文本字粒度和词粒度嵌入特征,使用CNN(convolutional neural networks)网络对Bert高层特征做深层抽取,同时将词粒度特征向量输入到双向LSTM(long short-term memory)网络提取全局语义,并采用Attention机制对语义特征强化,将强化特征和Bert字粒度特征进行融合,充分利用动态词向量和静态词向量的语义表征优势,提出一种基于强化语义的中文广告识别模型CARES(Chinese advertisement text recognition based on enhanced semantic)。在真实的社交聊天文本数据集上的实验表明,与使用卷积神经网络、循环神经网络等文本分类模型相比,CARES模型分类性能最优,能更加精确识别社交聊天文本中的广告内容,模型识别的正确率达到97.73%。  相似文献   

15.
刘金硕  张智 《计算机科学》2016,43(12):277-280
针对因中文食品安全文本特征表达困难,而造成语义信息缺失进而导致分类器准确率低下的问题,提出一种基于深度神经网络的跨文本粒度情感分类模型。以食品安全新闻报道为目标语料,采用无监督的浅层神经网络初始化文本的词语级词向量。引入递归神经网络,将预训练好的词向量作为下层递归神经网络(Recursive Neural Network)的输入层,计算得到具备词语间语义关联性的句子特征向量及句子级的情感倾向输出,同时动态反馈调节词向量特征,使其更加接近食品安全特定领域内真实的语义表达。然后,将递归神经网络输出的句子向量以时序逻辑作为上层循环神经网络(Recurrent Neural Network)的输入,进一步捕获句子结构的上下文语义关联信息,实现篇章级的情感倾向性分析任务。实验结果表明,联合深度模型在食品安全新闻报道的情感分类任务中具有良好的效果,其分类准确率和F1值分别达到了86.7%和85.9%,较基于词袋思想的SVM模型有显著的提升。  相似文献   

16.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用.针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型.模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组...  相似文献   

17.
句子排序是自然语言处理中的重要任务之一,其应用包括多文档摘要、问答和文本生成。不当的句子排序会产生逻辑不通顺的文本,使得文本的可读性降低。该文采用在中英文上大规模使用的深度学习方法,同时结合朝鲜语词语形态变化丰富的特点,提出了一种基于子词级别词向量和指针网络的朝鲜语句子排序模型,其目的是解决传统方法无法挖掘深层语义信息的问题。该文提出基于形态素拆分的词向量训练方法(MorV),同时对比子词n元词向量训练方法(SG),得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网络(CNN)、基于长短时记忆网络(LSTM),结合指针网络分别进行实验。结果表明采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系,提升句子排序的效果。  相似文献   

18.
针对主流面向文本的读者情绪预测算法难以捕捉文本中复杂的语义和语法信息,以及局限于使用多标签分类方法的问题,提出一种融合注意力机制和卷积门限循环神经网络的读者情绪预测方法。该方法将文本划分为多个句子,利用卷积神经网络从每个句子中提取不同粒度的n-gram信息,构建句子级别的特征表示;然后通过门限循环神经网络顺序地集成这些句子特征,并利用注意力机制自适应地感知上下文信息提取影响读者情绪的文本特征;最后利用softmax回归进行细粒度的读者情绪分布预测。在雅虎新闻读者情感分析数据集上的实验结果证明了该方法的有效性。  相似文献   

19.
事件结构性语法特征与事件语义特征各有优势,二者融合利于准确表征事件触发词,进而有利于完成事件触发词抽取任务。现有的基于特征、基于结构及基于神经网络模型等的抽取方法仅能捕捉事件的部分特征,不能够准确表征事件触发词。为解决上述问题,提出一种融合了事件结构性语法特征和事件语义特征的混合模型,完成事件触发词抽取任务。首先,在初始化向量模型中融入句子的依存句法信息,使初始向量中包含事件结构性语法特征;然后,将初始向量依次传入神经网络模型中的CNN和BiGRU-E-attention模型中,在捕获多维度事件语义特征的同时,完成事件结构性语法特征与事件语义特征的融合;最后,进行事件触发词的抽取。在CEC中文突发语料库上进行事件触发词位置识别和分类实验,该模型的F值较基准模型的分别提高了0.86%和4.07%;在ACE2005英文语料库上,该模型的F值较基准模型的分别提高了1.4%和1.5%。实验结果表明,混合模型在事件触发词抽取任务中取得了优异的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号