首页 | 本学科首页   官方微博 | 高级检索  
     

基于DOM的网页信息抽取方法
引用本文:潘超,梁宏伟,李立召.基于DOM的网页信息抽取方法[J].硅谷,2010(20):172-172,190.
作者姓名:潘超  梁宏伟  李立召
作者单位:长春工业大学,吉林长春130012
摘    要:随着网络的发展,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频,音乐等。不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便。提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保留人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树。然后设计抽取算法,使用java语言编程,采用抽取算法,删除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息。

关 键 词:HTML  信息抽取  DOM  NekoHtml
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号