首页 | 本学科首页   官方微博 | 高级检索  
     

基于逻辑行和最大接纳距离的网页正文抽取
引用本文:张霞亮,陈家骏.基于逻辑行和最大接纳距离的网页正文抽取[J].计算机工程与应用,2009,45(25):125-128.
作者姓名:张霞亮  陈家骏
作者单位:1. 南京大学,软件学院,南京,210093
2. 南京大学,计算机软件新技术国家重点实验室,南京,210093
基金项目:国家高技术研究发展计划(863),江苏省自然科学基金 
摘    要:网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。

关 键 词:信息抽取  网页正文  逻辑行  启发式规则  最大接纳距离
收稿时间:2008-10-22
修稿时间:2008-12-29  

Web content extraction method based on logic lines and maximum admitting distances
ZHANG Xia-liang,CHEN Jia-jun.Web content extraction method based on logic lines and maximum admitting distances[J].Computer Engineering and Applications,2009,45(25):125-128.
Authors:ZHANG Xia-liang  CHEN Jia-jun
Affiliation:ZHANG Xia-liang1,CHEN Jia-jun21.Software Institute,Nanjing University,Nanjing 210000,China 2.State Key Laboratory for Novel Software Technology,Nanjing 210093,China
Abstract:The content extraction for Web pages is a basic work to many Web applications and has to be solved well.The mainstream methods are based on the DOM trees and they need to parse out the DOM tree structures.For there are so many sources of Web pages in current Internet and their structures vary,the methods based on DOM trees may face the problem of low extraction precision and the shortage of performance.Aiming at these problems,this pager proposes a new method to extract the contents of Web pages.This method...
Keywords:information extraction  Web content  logic lines  heuristic rules  maximum admitting distances
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号