首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于HITS算法的Blog文摘方法
引用本文:苗家,马军,陈竹敏. 一种基于HITS算法的Blog文摘方法[J]. 中文信息学报, 2011, 25(1): 104-110
作者姓名:苗家  马军  陈竹敏
作者单位:山东大学 计算机科学与技术学院,山东 济南 250101
基金项目:国家自然科学基金资助项目(60970047); 山东省科技攻关资助项目(2007GG10001002,2008GG10001026); 山东省自然科学基金资助项目(Y2008G19)
摘    要:Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。

关 键 词:文档自动摘要  Blog  评论  HITS  

A New HITS-Based Summarization Approach for Blog
MIAO Jia,MA Jun,CHEN Zhumin. A New HITS-Based Summarization Approach for Blog[J]. Journal of Chinese Information Processing, 2011, 25(1): 104-110
Authors:MIAO Jia  MA Jun  CHEN Zhumin
Affiliation:School of Computer Science and Technology Shandong University, Jinan, Shandong 250101, China
Abstract:Since blog contains many comments involving massive noise,how to summarize the content of blog posts together with the comments is a difficult task for many blog applications.The previous works for textual document summarization are mostly for multi-document summarization in general.Without taking the particularity of blog into account,the previous works are inefficient for blog posts with comments.This paper proposes a novel summarization approach for blog based on the characteristics of the blog posts in ...
Keywords:automatic document summarization  blog  comment  HITS  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号