首页 | 本学科首页   官方微博 | 高级检索  
     

基于分块的网页正文信息提取算法研究
引用本文:黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26,30.
作者姓名:黄文蓓  杨静  顾君忠
作者单位:华东师范大学计算机科学技术系,上海200062
基金项目:上海市科学技术委员会科技攻关项目(055115001)
摘    要:提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

关 键 词:Web网页正文提取  内容块  标签树  噪音
文章编号:1001-9081(2007)S1-0024-03
修稿时间:2006-12-21
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号