基于DOM的网页信息抽取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于DOM的网页信息抽取方法

引用本文：	潘超,梁宏伟,李立召.基于DOM的网页信息抽取方法[J].硅谷,2010(20):172-172,190.

作者姓名：	潘超梁宏伟李立召

作者单位：	长春工业大学,吉林长春130012

摘要：	随着网络的发展,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频,音乐等。不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便。提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保留人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树。然后设计抽取算法,使用java语言编程,采用抽取算法,删除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息。
关键词：	HTML 信息抽取 DOM NekoHtml
本文献已被 CNKI 维普万方数据等数据库收录！