基于无秩树自动机的信息抽取技术研究 |
| |
引用本文: | 谭鹏许,谭晓贞,张来顺. 基于无秩树自动机的信息抽取技术研究[J]. 计算机工程与设计, 2009, 30(23) |
| |
作者姓名: | 谭鹏许 谭晓贞 张来顺 |
| |
作者单位: | 解放军信息工程大学,电子技术学院,河南,郑州,450004;海军司令部航空管制处,北京,100071 |
| |
摘 要: | 针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.
|
关 键 词: | 无秩树自动机 信息抽取 结构(半结构)化文档 (k l)-contextual树 文法推理 |
Information extraction based on unranked tree automata |
| |
Abstract: | |
| |
Keywords: | unranked tree automata information extraction (semi-)structured documents (k,l)-contextual tree language grammar inference |
本文献已被 万方数据 等数据库收录! |
|