首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于LDA的Web论坛低质量回帖检测方法
引用本文:韩晓晖,马军,邵海敏,薛冉.一种基于LDA的Web论坛低质量回帖检测方法[J].计算机研究与发展,2012,49(9):1937-1946.
作者姓名:韩晓晖  马军  邵海敏  薛冉
作者单位:山东大学计算机科学与技术学院 济南 250101
基金项目:国家自然科学基金项目,山东省自然科学基金项目,山东大学自主创新基金项目
摘    要:为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.

关 键 词:Web论坛  主题模型  主题分布  低质量回帖  语义特征  分类

An LDA Based Approach to Detect the Low-Quality Reply Posts in Web Forums
Han Xiaohui , Ma Jun , Shao Haimin , Xue Ran.An LDA Based Approach to Detect the Low-Quality Reply Posts in Web Forums[J].Journal of Computer Research and Development,2012,49(9):1937-1946.
Authors:Han Xiaohui  Ma Jun  Shao Haimin  Xue Ran
Affiliation:(School of Computer Science and Technology,Shandong University,Jinan 250101)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号