首页 | 本学科首页   官方微博 | 高级检索  
     

基于规则归纳的信息抽取系统实现
引用本文:石倩,陈荣,鲁明羽.基于规则归纳的信息抽取系统实现[J].计算机工程与应用,2008,44(21):166-170.
作者姓名:石倩  陈荣  鲁明羽
作者单位:1. 大连海事大学,信息科学技术学院,辽宁,大连,116026
2. 大连海事大学,信息科学技术学院,辽宁,大连,116026;吉林大学,符号计算与知识工程教育部重点实验室,长春,130012
基金项目:国家自然科学基金 , 大连市科技局重大项目 , 吉林大学符号计算与知识工程教育部重点实验室开放课题
摘    要:面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。

关 键 词:信息抽取  抽取规则  DOM  学习算法
收稿时间:2008-4-30
修稿时间:2008-5-26  

Implementation of rule induction-based information extraction system
SHI Qian,CHEN Rong,LU Ming-yu.Implementation of rule induction-based information extraction system[J].Computer Engineering and Applications,2008,44(21):166-170.
Authors:SHI Qian  CHEN Rong  LU Ming-yu
Affiliation:1.School of Informational Science and Technology,Dalian Maritime University,Dalian,Liaoning 116026,China 2.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China
Abstract:With the rapid increase of Web information,Information Extraction (IE) techniques are good for automatically extracting data of interest from a mass of Web documents.In this paper,the design and the implementation of a rule induction based IE system is presented for automating Web information retrieval by DOM parsing and rules for retrieval,extraction and mapping.In this framework for rule induction,the authors particularly focus on the experiments with the WHISK algorithm for generating patterns.Experimental results show that the system performs well on both single-slot and multi-slot extraction tasks.
Keywords:information extraction  extraction rule  DOM  learning algorithm
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号