首页 | 本学科首页   官方微博 | 高级检索  
     

网页信息提取技术
引用本文:邵振凯.网页信息提取技术[J].计算机技术与发展,2013(9).
作者姓名:邵振凯
作者单位:安徽理工大学 计算机科学与工程学院,安徽 淮南,232001
摘    要:随着互联网的快速发展,Web页面上的信息量已变得非常巨大,面对网页上海量的信息资源,如何快速有效地检索及发现有价值的信息已成为Web研究的一个重要方面。对此提出了一种标签提取方法。利用JTidy将网页优化为格式良好的HTML文档并解析为DOM树,然后用标签提取方法对该DOM树中包含有文本信息内容的叶子节点标签进行提取,把用于控制网页交互性和显示的标签删除掉,并运用基于标点符号的信息提取方法去除版权说明等信息。对不同网站的网页进行抽取实验,结果表明标签提取方法不但通用性强,而且能够准确地提取网页的主题信息。

关 键 词:DOM  标签提取  信息提取  网页净化

Web Page Information Extraction Technology
SHAO Zhen-kai.Web Page Information Extraction Technology[J].Computer Technology and Development,2013(9).
Authors:SHAO Zhen-kai
Abstract:
Keywords:DOM  tags extraction  information extraction  Web page purifying
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号