首页 | 本学科首页   官方微博 | 高级检索  
     

基于XSLT的PDF信息抽取技术的研究
引用本文:宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.
作者姓名:宋艳娟  李金铭  陈振标
作者单位:1. 福建农林大学计算机与信息学院,福州,350002
2. 福州大学图书馆,福州,350002
摘    要:以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统.首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取.测试结果表明,系统的抽取效果良好,并具有较强的扩展性.

关 键 词:信息抽取  PDF  XML  XSLT
修稿时间:2007年12月21

Research on PDF Information Extraction Technology Based on XSLT
Song Yanjuan,Li Jinming,Chen Zhenbiao.Research on PDF Information Extraction Technology Based on XSLT[J].Computer and Digital Engineering,2008,36(5):156-159.
Authors:Song Yanjuan  Li Jinming  Chen Zhenbiao
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号