基于关键词相似度的短文本分类方法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于关键词相似度的短文本分类方法研究

作者姓名：	张振豪过弋韩美琪王吉祥

作者单位：	华东理工大学信息科学与工程学院,上海 200237;华东理工大学信息科学与工程学院,上海 200237;石河子大学信息科学与技术学院,新疆石河子832003;大数据流通与交易技术国家工程实验室——商业智能与可视化技术研究中心,上海200436

基金项目：	上海市科委项目;国家自然科学基金

摘要：	在传统的文本分类中,文本向量空间矩阵存在维数灾难和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。
关键词：	词向量特征选择短文本分类特征权重
收稿时间：	2018-04-27
修稿时间：	2019-11-24
本文献已被万方数据等数据库收录！
	点击此处可从《计算机应用研究》浏览原始摘要信息
	点击此处可从《计算机应用研究》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏