首页 | 本学科首页   官方微博 | 高级检索  
     

基于DTA的信息抽取技术研究
引用本文:谭鹏许,张来顺,滕婕.基于DTA的信息抽取技术研究[J].计算机应用与软件,2009,26(12):228-230,250.
作者姓名:谭鹏许  张来顺  滕婕
作者单位:1. 解放军信息工程大学电子技术学院,河南,郑州,450004
2. 华东师范大学,上海,200241
摘    要:针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。

关 键 词:树自动机  信息抽取  HTML

ON INFORMATION EXTRACTION TECHNIQUE BASED ON DTA
Tan Pengxu,Zhang Laishun,Teng Jie.ON INFORMATION EXTRACTION TECHNIQUE BASED ON DTA[J].Computer Applications and Software,2009,26(12):228-230,250.
Authors:Tan Pengxu  Zhang Laishun  Teng Jie
Abstract:
Keywords:HTML
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号