首页 | 本学科首页   官方微博 | 高级检索  
     

基于LDA模型的博客垃圾评论发现
作者姓名:刁宇峰  杨亮  林鸿飞
作者单位:大连理工大学 信息检索研究室,辽宁 大连 116024
基金项目:国家自然科学基金资助项目(60673039,60973068); 国家社科基金资助项目(08BTQ025); 国家863高科技计划资助项目(2006AA01Z151); 教育部留学回国人员科研启动基金; 高等学校博士学科点专项科研基金资助项目(20090041110002)
摘    要:Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。

关 键 词:Blog  博文  LDA  主题  垃圾评论  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号