首页 | 本学科首页   官方微博 | 高级检索  
     

基于关键词相似度的短文本分类方法研究
引用本文:张振豪,过弋,韩美琪,王吉祥. 基于关键词相似度的短文本分类方法研究[J]. 计算机应用研究, 2020, 37(1): 26-29
作者姓名:张振豪  过弋  韩美琪  王吉祥
作者单位:华东理工大学 信息科学与工程学院,上海 200237;华东理工大学 信息科学与工程学院,上海 200237;石河子大学 信息科学与技术学院,新疆 石河子832003;大数据流通与交易技术国家工程实验室——商业智能与可视化技术研究中心,上海200436
基金项目:上海市科委项目;国家自然科学基金
摘    要:在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。

关 键 词:词向量  特征选择  短文本分类  特征权重
收稿时间:2018-04-27
修稿时间:2019-11-24

Research on short text classification based on keyword similarity
zhangzhenhao,guoyi,hanmeiqi and wangjixiang. Research on short text classification based on keyword similarity[J]. Application Research of Computers, 2020, 37(1): 26-29
Authors:zhangzhenhao  guoyi  hanmeiqi  wangjixiang
Affiliation:School of information Science and Engineering, East China University of Science and Technology,,,,
Abstract:In order to cope with the problem of data sparsity and "curse of dimensionality" in text classification, this paper proposed a short text classification framework by taking keyword as featrues and assigning keyword similarity as feature weight. First, it trained a word2vec model with large corpus data, then got keywords of each category text by textrank. And it selected unique keywords from the keywords collection as features. For each feature, it calculated the similarity of words in the short text by word2vec model, and assigned the maximum similarity as the weight of the feature. Finally, it chose KNN and SVM as classifier. Experiments on dataset of Chinese news headlines demonstrate that the accuracy outperforms other usual methods by 6%.
Keywords:word embedding   feature selecting   short text classification   feature weighting
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号