首页 | 本学科首页   官方微博 | 高级检索  
     

融合词语类别特征和语义的短文本分类方法
引用本文:马慧芳,周汝南,吉余岗,鲁小勇.融合词语类别特征和语义的短文本分类方法[J].计算机工程与科学,2017,39(2):399-404.
作者姓名:马慧芳  周汝南  吉余岗  鲁小勇
作者单位:;1.西北师范大学计算机科学与工程学院
基金项目:国家自然科学基金(61163039,61363058);甘肃省青年科技基金(145RJYA259);甘肃省自然科学研究基金(145RJZA232);西北师范大学2013年度青年教师科研能力提升计划(NWNU-LKQN-12-23);中国科学院计算技术研究所智能信息处理重点实验室开放基金(IIP2014-4);2016年甘肃省大学生创新创业训练计划(201610736041,201610736040)
摘    要:针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。

关 键 词:短文本分类  隐含狄利克雷分布  词汇特征  语义特征  特征选择
收稿时间:2015-11-13
修稿时间:2017-02-25

A short text classification method combining lexical category features and semantics
MA Hui-fang,ZHOU Ru-nan,JI Yu-gang,LU Xiao-yong.A short text classification method combining lexical category features and semantics[J].Computer Engineering & Science,2017,39(2):399-404.
Authors:MA Hui-fang  ZHOU Ru-nan  JI Yu-gang  LU Xiao-yong
Affiliation:(College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China)
Abstract:Classification of short texts is challenging due to their typical characteristics of severe sparseness and high dimension. We propose a novel approach to classify short texts by combining both lexical and semantic features. To construct the term dictionary, we firstly select lexical features of the most distinctive words of a certain category, and then extract the optimal topic distribution from the background knowledge repository based on the Latent Dirichlet Allocation so as to construct the new features of short texts. Experiments on classifying Sohu news titles which are typical short texts via SVM and K-NN show that our method can greatly improve the classification results.
Keywords:short text classification  Latent Dirichlet Allocation  lexical features  semantic features  feature selection  
点击此处可从《计算机工程与科学》浏览原始摘要信息
点击此处可从《计算机工程与科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号