首页 | 本学科首页   官方微博 | 高级检索  
     

基于Word2Vec的一种文档向量表示
引用本文:唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217, 269.
作者姓名:唐明  朱磊  邹显春
作者单位:西南大学计算机与信息科学学院 重庆400715,西南大学计算机与信息科学学院 重庆400715,西南大学计算机与信息科学学院 重庆400715
摘    要:在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。

关 键 词:TF-IDF  word2vec  doc2vec  文本分类
收稿时间:2016/1/19 0:00:00
修稿时间:2016/4/20 0:00:00

Document Vector Representation Based on Word2Vec
TANG Ming,ZHU Lei and ZOU Xian-chun.Document Vector Representation Based on Word2Vec[J].Computer Science,2016,43(6):214-217, 269.
Authors:TANG Ming  ZHU Lei and ZOU Xian-chun
Affiliation:School of Computer and Information Science,Southwest University,Chongqing 400715,China,School of Computer and Information Science,Southwest University,Chongqing 400715,China and School of Computer and Information Science,Southwest University,Chongqing 400715,China
Abstract:
Keywords:TF-IDF  Word2vec  Doc2vec  Text classification
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号