首页 | 本学科首页   官方微博 | 高级检索  
     

一种面向网络长文本的话题检测方法
作者单位:;1.重庆大学机械工程学院;2.重庆大学自动化学院
摘    要:提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Word2vec&LDA (latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的Single-Pass&HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对于现有的方法,如VSM (state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了10%~20%.

关 键 词:网络长文本  话题检测  文本表示  话题发现  文本聚类

A topic detection method for network long text
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号