首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
为了提高具有关联工单数据的录音文本的分类精确率,根据录音文本及关联数据的特点,设计基于深度学习的录音文本分类方法. 针对录音文本,通过双向词嵌入语言模型(ELMo)获得录音文本及工单信息的向量化表示,基于获取的词向量,利用卷积神经网络(CNN)挖掘句子局部特征;使用CNN分别挖掘工单标题和工单的描述信息,将CNN输出的特征进行加权拼接后,输入双向门限循环单元(GRU),捕捉句子上下文语义特征;引入注意力机制,对GRU隐藏层的输出状态赋予不同的权重. 实验结果表明,与已有算法相比,该分类方法的收敛速度快,具有更高的准确率.  相似文献   

2.
针对短文本数据量较小情况下CNN模型无法获得较好文本分类特征造成文本分类精度不高的问题,提出一种结合BERT语义分析和CNN的短文本分类模型,通过对BERT预训练模型进行微调获得文本向量表示,文本向量能够体现文本特征的全局语义关系,并将文本向量表示数据输入CNN模型进行分类模型训练,获得最终的文本分类特征实现分类。此方法能够实现短文本分类精度的有效提升。  相似文献   

3.
根据社交媒体短文本特征改进了词袋模型,利用特征之间的语义关系提出了语义表示模型,采用句子中特征先后顺序构建了次序图模型,在此基础上引入时间因素,提出了基于Single-Pass算法的用户兴趣主题模型用于抽取微博用户关注的话题。实验结果表明,该方法的FM、AA和F指标相比FSC-LDA方法分别提高了200.40%、46.50%、80.05%。  相似文献   

4.
针对中文情感分类的一词多义,以及完整语义信息表示问题,采用EB A P模型表示词向量,使用RCNN和Attention结合的方式提取文本特征,改善了模型捕获文本全局及局部语义特征和关键情感信息能力.  相似文献   

5.
在对化工领域类文本进行分类任务时,由于文本的专业性以及复杂多样性,仅仅依靠现有的词向量表征方式,很难对其中的专业术语以及其他化工领域内相关字词的语义进行充分表征,从而导致分类任务的准确率不高.本文提出一种融合多粒度动态语义表征的文本分类模型,首先在词嵌入层使用动态词向量表征语义信息并引入对抗扰动,使得词向量具有更好的表征能力,然后利用多头注意力机制进行词向量权重分配,获得带有关键语义信息的文本表示,最后使用提出的多尺度残差收缩深层金字塔形的卷积神经网络与混合注意力胶囊双向LSTM网络模型分别提取不同粒度的文本表示,融合后对得到的最终文本表示进行分类.实验结果表明,相比于现有模型,所提出的模型使用不同词向量表示时,在化工领域文本数据集上F1-Score最高可达84.62%,提升了0.38~5.58个百分点;在公开中文数据集THUCNews和谭松波酒店评论数据集ChnSentiCorp上进行模型泛化性能评估,模型也有较好表现.  相似文献   

6.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

7.
相较于纯文本的网络谣言,图文并茂的网络谣言形式更容易取得信任,同时也增加了谣言检测的难度。针对此类谣言形式,提出了一种融合多模态特征的中文谣言检测方法。首先,通过深度学习模型分别提取待检测信息中的文本词特征、文本的句子特征、文本的情感倾向特征、图像视觉特征和视觉特征语义向量;然后,通过注意力机制融合文本的词特征和视觉特征语义向量得到语义一致性特征;最后,将文本的句子特征、文本的情感倾向特征、图像视觉特征和语义一致性特征拼接起来得到多模态特征用于谣言检测。实验结果表明,本文提出的方法在微博多模态数据集上的准确率和F1值分别达到了89.9%和89.8%,提高了谣言检测的效果。  相似文献   

8.
针对短文本数据特征少、提供信息有限,以及传统卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network,RNN)对短文本特征表示不充分的问题,提出基于串并行卷积门阀循环神经网络的文本分类模型,处理句子特征表示与短文本分类。该网络在卷积层中去除池化操作,保留文本数据的时序结构和位置信息,以串并行的卷积结构提取词语的多元特征组合,并提取局部上下文信息作为RNN的输入;以门阀循环单元(gated recurrent unit,GRU)作为RNN的组成结构,利用文本的时序信息生成句子的向量表示,输入带有附加边缘距离的分类器中,引导网络学习出具有区分性的特征,实现短文本的分类。实验中采用TREC、MR、Subj短文本分类数据集进行测试,对网络超参数选择和卷积层结构对分类准确率的影响进行仿真分析,并与常见的文本分类模型进行了对比实验。实验结果表明:去掉池化操作、采用较小的卷积核进行串并行卷积,能够提升文本数据在多元特征表示下的分类准确率。相较于相同参数规模的GRU模型,所提出模型的分类准确率在3个数据集中分别提升了2.00%、1.23%、1.08%;相较于相同参数规模的CNN模型,所提出模型的分类准确率在3个数据集中分别提升了1.60%、1.57%、0.80%。与Text-CNN、G-Dropout、F-Dropout等常见模型相比,所提出模型的分类准确率也保持最优。因此,实验表明所提出模型可改善分类准确率,可实际应用于短文本分类场景。  相似文献   

9.
针对新闻文本分类方法中词向量的表示无法很好地保留字在句子中的信息及其多义性,利用知识增强的语义表示(ERNIE)预训练模型,根据上下文计算出字的向量表示,在保留该字上下文信息的同时也能根据字的多义性进行调整,增强了字的语义表示。在ERNIE模型后增加了双向门限循环单元(Bi GRU),将训练后的词向量作为Bi GRU的输入进行训练,得到文本分类结果。实验表明,该模型在新浪新闻的公开数据集THUCNews上的精确率为94. 32%,召回率为94. 12%,F1值为0. 942 2,在中文文本分类任务中具有良好的性能。  相似文献   

10.
传统的协同学习算法需要2个充分冗余的特征视图,而在多数情况下达不到特征充分冗余的要求,为此提出松散条件下的协同学习框架.利用支持向量机算法和长短期记忆网络(LSTM)算法分别建立基于向量空间模型的微博特征视图和基于语义相关的词向量特征视图,在2个视图上进行协同学习.针对未标注样本的选择,提出结合主动学习中的不确定策略和协同学习中的最高置信度策略的选择策略,从不同角度充分利用未标注样本中包含的信息量.实验结果表明,在中文微博情感极性研究领域,提出的选择策略与传统选择策略相比,能够提高分类器的性能,并且利用松散条件下的协同学习框架实现微博情感分析性能.  相似文献   

11.
基于特征融合和集成学习的建议语句分类模型   总被引:1,自引:0,他引:1  
建议挖掘作为一项新兴研究任务近年来逐渐受到了研究者的关注。与英文相比,中文的建议表达形式更为丰富,呈现出许多不同特点,因此有必要在中文环境下开展建议挖掘研究。针对建议挖掘中的建议语句检测这一核心任务,提出一种综合应用Stacking和Bagging方法的集成学习模型来进行建议语句分类。使用Stacking组合分类器来构建概率特征空间,分别使用卷积神经网络(convolutional neural network, CNN)和段落向量模型(paragraph vector, PV)构建评论文本的CNN特征空间和段落向量特征空间,对上述特征进行融合,并训练Bagging分类器来对建议语句分类。在中文数据集上的试验结果验证了本研究模型的有效性。  相似文献   

12.
为了对微博用户、微博文本和微博评论进行分析和研究,提出了一种基于转发评论的微博语义扩充和分类方法.首先在对微博用户类型分析的基础上将微博分为6种类型;然后以信息发布型微博为研究对象,提出了微博评论选择算法,筛选出微博有效评论;再利用基于转发评论的微博语义扩充和分类(comment-based microblog's semantic expansion and classification,CBMSEC)方法,将微博有效评论信息补充进微博语义,改善微博数据稀疏的问题,提高微博的分类性能.  相似文献   

13.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

14.
为了解决传统图卷积神经网络在进行谣言检测时面临的未充分考虑单词语义信息以及池化方法选择困难的问题,提出基于图卷积网络(GCN)的归纳式微博谣言检测新方法. 考虑单词之间的语义关系,结合传统词共现建图方法提出基于词语义相关性的微博事件建图方法,并结合图卷积网络和门循环单元(GRU)实现节点信息聚合;为了有效融合不同节点状态的特征信息,提出基于注意力机制的多池化方法融合策略融合最大池、平均池和全局池以获取最终的图级向量;为了提高微博谣言检测效率,探究微博评论时间对检测结果的影响,获得用于模型训练的最佳评论利用时间阈值. 实验结果表明,本研究方法在给定数据集上的表现普遍优于Text-CNN、Bi-GCN、TextING等典型方法,验证了其在微博谣言检测领域的有效性.  相似文献   

15.
为了实现Scratch可视化编程领域的作品分类,提出了一种基于标签关联性的多标签分类算法(MLLR),构建了一个有效的多标签Scratch分类模型.首先提取作品的Block使用特征、计算思维技能特征和复杂度特征3类特征作为分类特征;然后针对RAKEL算法随机选择标签子集,忽略了标签间的关联性,提出了改进的MLLR算法,该方法根据多标签之间的关联性来划分标签子集,再训练相应的标签幂集子分类器.实验结果表明,MLLR算法在分类性能和时间性能上优于RAKEL等多标签分类算法,构建的分类模型对于Scratch作品具有较强的适用性,分类的准确率达到81.3%.  相似文献   

16.
为改善零样本图像分类中相似度度量方法的鲁棒性,引入了一种用于零样本分类的度量学习方法.该方法由自编码构成,能在特征对齐后的语义嵌入空间中学习到最优的度量函数,用于计算测试样本特征和类标签的语义特征的相似度;然后利用近邻思想预测类别标签,进而避免产生不合适距离函数导致的分类错误.实验结果表明,与传统距离度量的算法相比,所提出的方法降低了识别错误率,在公开数据集AWA、CUB和ImNet-2上的分类准确率分别达到94.7%、63.7%和28.59%;同时表明了语义-视觉的映射方向比相反方向的识别准确率高出2.5%~10.1%.  相似文献   

17.
克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法. 该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中. 针对Naive Bayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性。  相似文献   

18.
提出基于卷积-门控循环单元(convolution-gated recurrent unit, C-GRU)的微博谣言事件检测模型。结合卷积神经网络(convolutional neural networks, CNN)和门控循环单元(gated recurrent unit, GRU)的优点,将微博事件博文句向量化,通过CNN中的卷积层学习微博窗口的特征表示,将微博窗口特征按时间顺序拼接成窗口特征序列,将窗口特征序列输入GRU中学习序列特征表示进行谣言事件检测。在真实数据集上的试验结果表明,相比基于传统机器学习方法、CNN和GRU的谣言检测模型,该模型有更好的谣言识别能力。  相似文献   

19.
为改进传统特征方法很难获取中文句子中结构信息的问题,提出一种基于深度神经网络的句法要素识别模型。采用Bi-LSTM网络从原始数据中自动抽取句子中的结构信息和语义信息,利用Attention机制自动计算抽象语义特征的分类权重,通过CRF层对输出标签进行约束,输出最优的标注序列。经过对比验证,该模型能有效识别句子中的句法要素,在标注数据集上F1达到84.85%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号