首页 | 本学科首页   官方微博 | 高级检索  
     

PDF阅读器的设计与实现
引用本文:李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7).
作者姓名:李强  刘时进
作者单位:华中师范大学物理科学与技术学院,湖北,武汉,430079
摘    要:为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型.基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路.在此基础上,针对FlatcDecode、DCTDecode和CCITTFFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论.通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用.

关 键 词:可移植文档格式  阅读器  文件解析  图像提取  信息处理

Design and implementation of PDF reader
LI Qiang,LIU Shi-jin.Design and implementation of PDF reader[J].Computer Engineering and Design,2010,31(7).
Authors:LI Qiang  LIU Shi-jin
Affiliation:LI Qiang,LIU Shi-jin(College of Physical Science , Technology,Central China Normal University,Wuhan 430079,China)
Abstract:To extract the text,images and graphical information from PDF file validly,an implementation model including four units(file pretreatment,display pretreatment,function extension and display) is raised.Based on the structure of PDF file,a solution of ignoring secondary message and positioning key information is put forward.On this basis,a solution to the data stream processed by FlateDecode,DCTDecode and CCITTFaxDecode filters is presented.After analyzed PDF pages twice,corresponding data structure of text a...
Keywords:PDF  reader  file parse  image extraction  information processing
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号