基于特征词向量的短文本聚类算法 Short Text Clustering Based on Feature Word Embedding期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于特征词向量的短文本聚类算法

引用本文：	刘欣佘贤栋唐永旺王波.基于特征词向量的短文本聚类算法[J].数据采集与处理,2017,32(5):1052-1060.

作者姓名：	刘欣佘贤栋唐永旺王波

作者单位：	1.解放军信息工程大学信息系统工程学院，郑州, 450002；2.中国人民解放军92899部队, 宁波, 315200

摘要：	针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题，本文提出了一种基于特征词向量的短文本聚类算法。首先，定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本；然后，使用Skip-gram模型（Continous skip-gram model）在大规模语料中训练得到表示特征词语义的词向量；最后，引入词语游走距离（Word mover′s distance,WMD）来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法，平均F值较次优结果提高了56.41%。
关键词：	短文本特征词词向量相似度计算聚类
Short Text Clustering Based on Feature Word Embedding

Affiliation:	1.School of Information and Systems Engineering, PLA Information Engineering University, Zhengzhou, 450002, China; 2.92899 Troops, PLA,Ningbo, 315200, China

Abstract:

Keywords:	short text feature word word embedding similarity calculation clustering

	点击此处可从《数据采集与处理》浏览原始摘要信息
	点击此处可从《数据采集与处理》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏