首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
区别于传统的基于词的中文短文本自动分类方法,以训练数据作为背景语料,利用关联规则挖掘算法挖掘训练集文本中的共现关系,创建特征共现集作为扩展词表。用特征共现集分别对训练文本和测试文本进行特征扩展建立短文本分类模型。实验表明,改进后的两种方法使短文本分类系统具有较高的精度。  相似文献   

2.
短文本特征稀疏、上下文依赖性强的特点,导致传统长文本分类技术不能有效地被直接应用。为了解决短文本特征稀疏的问题,提出基于Sentence-LDA主题模型进行特征扩展的短文本分类方法。该主题模型是隐含狄利克雷分布模型(Latent Dirichlet Allocation, LDA)的扩展,假设一个句子只产生一个主题分布。利用训练好的Sentence-LDA主题模型预测原始短文本的主题分布,从而将得到的主题词扩展到原始短文本特征中,完成短文本特征扩展。对扩展后的短文本使用支持向量机(Support Vector Machine, SVM)进行最后的分类。实验显示,与传统的基于向量空间模型(Vector Space Model,VSM)直接表示短文本的方法比较,本文提出的方法可以有效地提高短文本分类的准确率。  相似文献   

3.
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低。鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率。实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升。  相似文献   

4.
针对短文本信息量少导致隐藏的信息难以充分挖掘和深度学习模型易受干扰导致分类准确度下降的问题,提出一种融合对抗训练自注意力多层双向长短期记忆网络(Con-Att-BiLSTMs)短文本分类模型.将文本训练集按不同比例进行分类对抗训练,通过对抗训练提升模型的健壮性;利用多层双向长短期记忆网络对语义进行提取,利用自注意力机制...  相似文献   

5.
杨天平  朱征宇 《计算机应用》2012,32(12):3335-3338
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。  相似文献   

6.
由于短文本极稀疏性和特征分散的特点,短文本的情感分类效果总是不及篇章文本的情感分类,针对此问题,该文提出面向短文本情感分类的特征拓扑聚合模型。模型首先从特征点互信息,情感指向相似度,主题归属差异值三个维度整合计算情感特征的关联度,然后根据特征关联度建立拓扑聚合图模型,通过在图上求解强联通分量聚合高关联度情感特征,从大量未标注语料中提取相似特征对训练集特征进行补充,同时降低训练空间维度。实验将模型应用于短文本情感分类,与基准算法对比能提高分类准确率和召回率分别达0.03和0.027。验证了模型在缓解短文本极稀疏性和特征分散问题上的效果。
  相似文献   

7.
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。  相似文献   

8.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

9.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题.提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点...  相似文献   

10.
针对短文本缺乏足够共现信息所产生的词与词之间弱连接,且难以获取主题词的情况,导致面向短文本分类工作需要人工标注大量的训练样本,以及产生特征稀疏和维度爆炸的问题,提出了一种基于注意力机制和标签图的单词共生短文本分类模型(WGA-BERT)。首先利用预先训练好的BERT模型计算上下文感知的文本表示,并使用WNTM对每个单词的潜在单词组分布进行建模,以获取主题扩展特征向量;其次提出了一种标签图构造方法捕获主题词的结构和相关性;最后,提出了一种注意力机制建立主题词之间,以及主题词和文本之间的联系,解决了数据稀疏性和主题文本异构性的问题。实验结果表明,WGA-BERT模型对于新闻评论类的短文本分类,比传统的机器学习模型在分类精度上平均提高了3%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号