基于XSLT的PDF信息抽取技术的研究 Research on PDF Information Extraction Technology Based on XSLT期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于XSLT的PDF信息抽取技术的研究

引用本文：	宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.

作者姓名：	宋艳娟李金铭陈振标

作者单位：	1. 福建农林大学计算机与信息学院,福州,350002 2. 福州大学图书馆,福州,350002

摘要：	以XML作为信息表现模型,以XSLT作为信息抽取规则,设计并实现了一套面向科技论文的PDF文档的信息抽取系统.首先将PDF源文档转换为一种中间XML文档,然后利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取.测试结果表明,系统的抽取效果良好,并具有较强的扩展性.
关键词：	信息抽取 PDF XML XSLT
修稿时间：	2007年12月21
Research on PDF Information Extraction Technology Based on XSLT

Song Yanjuan,Li Jinming,Chen Zhenbiao.Research on PDF Information Extraction Technology Based on XSLT[J].Computer and Digital Engineering,2008,36(5):156-159.

Authors:	Song Yanjuan Li Jinming Chen Zhenbiao

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！