首页 | 本学科首页   官方微博 | 高级检索  
     

基于无秩树自动机的信息抽取技术研究
引用本文:谭鹏许,谭晓贞,张来顺. 基于无秩树自动机的信息抽取技术研究[J]. 计算机工程与设计, 2009, 30(23)
作者姓名:谭鹏许  谭晓贞  张来顺
作者单位:解放军信息工程大学,电子技术学院,河南,郑州,450004;海军司令部航空管制处,北京,100071
摘    要:针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.

关 键 词:无秩树自动机  信息抽取  结构(半结构)化文档  (k  l)-contextual树  文法推理

Information extraction based on unranked tree automata
Abstract:
Keywords:unranked tree automata  information extraction  (semi-)structured documents  (k,l)-contextual tree language  grammar inference
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号