首页 | 本学科首页   官方微博 | 高级检索  
     

基于特征词向量的短文本聚类算法
引用本文:刘欣佘贤栋唐永旺王波.基于特征词向量的短文本聚类算法[J].数据采集与处理,2017,32(5):1052-1060.
作者姓名:刘欣佘贤栋唐永旺王波
作者单位:1.解放军信息工程大学信息系统工程学院,郑州, 450002;2.中国人民解放军92899部队, 宁波, 315200
摘    要:针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。

关 键 词:短文本  特征词  词向量  相似度计算    聚类

Short Text Clustering Based on Feature Word Embedding
Affiliation:1.School of Information and Systems Engineering, PLA Information Engineering University, Zhengzhou, 450002, China; 2.92899 Troops, PLA,Ningbo, 315200, China
Abstract:
Keywords:short text  feature word  word embedding  similarity calculation  clustering
点击此处可从《数据采集与处理》浏览原始摘要信息
点击此处可从《数据采集与处理》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号