基于分块的网页正文信息提取算法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于分块的网页正文信息提取算法研究

作者姓名：	黄文蓓杨静顾君忠

作者单位：	华东师范大学计算机科学技术系,上海200062

基金项目：	上海市科学技术委员会科技攻关项目（055115001）

摘要：	提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤：网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法，该算法比起以往方法更准确，并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块，来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
关键词：	Web网页正文提取内容块标签树噪音
文章编号：	1001-9081（2007）S1-0024-03
修稿时间：	2006-12-21
本文献已被维普等数据库收录！