首页 | 本学科首页   官方微博 | 高级检索  
     

基于自动机理论的PDF文本内容抽取
引用本文:王晓娟,谭建龙,刘燕兵,刘金刚.基于自动机理论的PDF文本内容抽取[J].计算机应用,2012,32(9):2491-2495.
作者姓名:王晓娟  谭建龙  刘燕兵  刘金刚
作者单位:1.首都师范大学 计算机科学联合研究院,北京 100037; 2.中国科学院 计算技术研究所,北京 100190; 3.中国科学院 研究生院,北京 100049
基金项目:国家自然科学基金资助项目(61070026);国家863计划项目(2011AA010705)
摘    要:现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。

关 键 词:文本内容抽取  自动机  确定的有穷自动机  不完整文档  
收稿时间:2012-02-21
修稿时间:2012-04-25

Extraction of text content from PDF documents based on automaton theory
WANG Xiao-juan,TAN Jian-long,LIU Yan-bing,LIU Jin-gang.Extraction of text content from PDF documents based on automaton theory[J].journal of Computer Applications,2012,32(9):2491-2495.
Authors:WANG Xiao-juan  TAN Jian-long  LIU Yan-bing  LIU Jin-gang
Affiliation:1.Joint Faculty of Computer Scientific Research,Capital Normal University,Beijing 100037,China;
2.Institute of Computer Technology,Chinese Academy of Sciences,Beijing 100190,China;
3.Graduate University of Chinese Academy of Sciences,Beijing 100049,China
Abstract:The existing methods of extracting text content from a PDF file,such as the one adopted by the PDFBox library,are not efficient enough to handle the high-speed network traffic.Moreover,these methods cannot extract the contents streamingly from partial PDF packets in transfer.This paper proposed a new method based on automaton theory.The method adopted a hierarchical keyword Deterministic Finite Automaton(DFA) to extract information from complete or incomplete PDF files.The experimental results show that the response time of the proposed method is about 17%-37% of the algorithm used by PDFBox when processing PDF files in Chinese or English.
Keywords:text content extraction  automaton  Deterministic Finite Automation(DFA)  incomplete document
本文献已被 CNKI 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号