首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
为快速准确地从海量新闻中挖掘用户需求,解决短文本语义关系单薄、篇幅较短、特征稀疏问题,提出一种融合语义知识和BiLSTM-CNN的短文本分类方法.该分类模型将新闻短文本预处理成Word2Vec词向量,通过卷积神经网络提取代表性的局部特征,利用双向长短时记忆网络捕获上下文语义特征,再由Softmax分类器实现短文本分类.文章对体育、财经、教育、文化和游戏五大主题的新闻语料进行了实验性的分析.结果表明,融合语义知识和BiLSTM-CNN的短文本分类方法在准确率、召回率和F1值上均有所提升,该方法可以为短文本分类和推荐系统提供有效支撑.  相似文献   

2.
中文短文本具有长度短以及上下文依赖强的特点。目前主流的基于词向量的双向循环神经网络分类方法依赖于词向量语义表达以及上下文特征提取能力,其分类准确率有待进一步改善。针对此问题,论文提出融合语义增强的中文短文本分类方法,该方法提出融合语义增强的思想,在词向量表示阶段,引入Bert生成融合字、文本以及位置的向量作为训练文本的词表征进行文本语义增强,接着输送到Bi-GRU网络中提取上下文关系特征,并通过多头注意力机制调整权值强化重要特征表达,最后使用softmax分类器进行文本分类。通过与其他主流方法进行对比论证,实验表明,论文提出的方法在短文本分类效果上有显著提升。  相似文献   

3.
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。  相似文献   

4.
杨天平  朱征宇 《计算机应用》2012,32(12):3335-3338
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。  相似文献   

5.
不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升.针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出特征进行分类.首先,通过神经主题模型提取主题来丰富短文本的信息;其次,将主题信息储存在记忆网络中,并与序列信息进行融合,丰富文本的表示;最后,将其输入具有残差结构的卷积神经网络以及双向GRU中,提取局部以及全局的语义特征,在特征融合之后进行分类.该模型在Google网页搜索公开数据集中取得了较高的准确率和F1值,表明了改进模型在短文本分类任务中的有效性.  相似文献   

6.
郝婷  王薇 《软件工程》2023,(3):58-62
中文短文本具有长度短及上下文依赖强的特点,针对新闻主题文本用词不够规范、语义模糊、特征稀疏等问题,提出首先在词向量表示阶段引入Bert(双向Transformers编码器)生成融合字、文本及位置的词向量作为训练文本的词表征进行文本语义增强,然后将得到的词向量输送到BiLSTM(双向长短期记忆网络)网络中提取上下文关系特征,最后使用Softmax分类器进行文本分类,模型准确率达0.9391。通过与其他主流方法进行对比和实验验证,实验结果表明,文章提出的方法在进行新闻短文本分类时有良好效果。  相似文献   

7.
短文本通常是由几个到几十个词组成,长度短、特征稀疏,导致短文本分类的准确率难以提升。为了解决此问题,提出了一种基于局部语义特征与上下文关系融合的中文短文本分类算法,称为Bi-LSTM_CNN_AT,该算法利用CNN提取文本的局部语义特征,利用Bi-LSTM提取文本的上下文语义特征,并结合注意力机制,使得Bi-LSTM_CNN_AT模型能从众多的特征中提取出和当前任务最相关的特征,更好地进行文本分类。实验结果表明,Bi-LSTM_CNN_AT模型在NLP&CC2017的新闻标题分类数据集18个类别中的分类准确率为81.31%,比单通道的CNN模型提高2.02%,比单通道的Bi-LSTM模型提高1.77%。  相似文献   

8.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

9.
基于领域词语本体的短文本分类   总被引:2,自引:0,他引:2  
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类.提出了基于领域词语本体的短文本分类方法.首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类.对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率.  相似文献   

10.
该文采用基于短文本隐含空间语义特征改进文本蕴涵识别,该方法通过构造句子的隐含变量模型,并融合基于该模型的句子之间相似度特征,和词汇重叠度、N元语法重叠度、余弦相似度等字符串特征,以及带标记和未标记的子树重叠度句法特征一起利用SVM进行分类。基于该分类算法,我们对RTE-8任务进行了测试,实验表明短文本的隐含语义特征可有效改进文本蕴涵关系识别。
  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号