首页 | 本学科首页   官方微博 | 高级检索  
     

基于句向量和卷积神经网络的文本聚类研究
作者姓名:贾君霞  王会真  任凯  康文
作者单位:1.兰州交通大学 电子与信息工程学院,兰州 730070 2.国电甘肃新能源有限公司,兰州 730070
基金项目:国家自然科学基金(51867012);;甘肃省科技计划资助项目(1504WKCA016);
摘    要:针对文本聚类时文本特征维度高,忽略文档词排列顺序和语义等问题,提出了一种基于句向量(Doc2vec)和卷积神经网络(convolutional neural networks,CNN)的文本特征提取方法用于文本聚类。首先利用Doc2vec模型把训练数据集中的文本转换成句向量,充分考虑文档词排列顺序和语义;然后利用CNN提取文本的深层语义特征,解决特征维度高的问题,得到能够用于聚类的文本特征向量;最后使用k-means算法进行聚类。实验结果表明,在爬取的搜狗新闻数据上,该文本聚类模型的准确率达到了0.776,F值指标达到了0.780,相比其他文本聚类模型均有所提高。

关 键 词:卷积神经网络(CNN)  Doc2vec  文本表示  文本聚类
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号