首页 | 本学科首页   官方微博 | 高级检索  
     

基于多层模式的多记录网页信息抽取方法
引用本文:朱明,王军,王俊普. 基于多层模式的多记录网页信息抽取方法[J]. 计算机工程, 2001, 27(9): 40-42
作者姓名:朱明  王军  王俊普
作者单位:中国科技大学自动化系
基金项目:安徽省自然科学基金资助项目(98312820)
摘    要:为有效解决网页信息抽取所需知识的获取问题,提出一种基于多层模式的网信息抽取方法,(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结构所表成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容,有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网而信息自适应抽取能力。

关 键 词:半结构化数据 信息抽取 模式识别 网页 计算机网络
文章编号:1000-3428(2001)09-0040-03
修稿时间:2001-01-08

Multiple Record Extraction from HTML Page Based on Hierarchical Pattern
ZHU Ming,WANG Jun,WANG Junpu. Multiple Record Extraction from HTML Page Based on Hierarchical Pattern[J]. Computer Engineering, 2001, 27(9): 40-42
Authors:ZHU Ming  WANG Jun  WANG Junpu
Abstract:
Keywords:Semi-structured data  Information extraction  Pattern recognition
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号