共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
3.
4.
5.
在PDF的各种应用中,对于文档的理解与处理是非常重要的.首先要从文档中提取相关的关键词和短语,以便于在文档内部或外部建立超链接,方便建立电子文档.因此提出了一种新的方法,将关键信息(关键性的单词、词组或区域)从PDF文件中提取出来,经过组织后,保存在称为KIU的文件中,这样可以在实际上不接触PDF文件的情况下,自动生成超链接.分区域的方法有利于提取过程,找到文本的位置和范围后,可以借助于光学字符识别(OCR)软件来提取文本中的关键性词语或词组. 相似文献
6.
笔者最近因为写论文,从网上下载了很多PDF格式的英文文献。这些文章下载下来后,却有很多无法使用金山词霸取词。笔者仅过一番研究,终于找到了彻底的解决办法。怎么,你也遇到了这个问题?跟我来吧,it's too simple! 未加密的PDF文件 PDF格式是Adobe公司的专利,可以保存不同级别的加密信息。一般情况下,如果PDF文件没有加密,那么只要注 相似文献
7.
8.
为有效提取PDF(portable document format)文件中的文字、图片、图形信息,提出了包含文件预处理、显示预处理、功能扩展、显示4个单元的PDF阅读器的实现模型.基于PDF文件结构特点,提出了忽略次要信息定位关键位置的解析思路.在此基础上,针对FlatcDecode、DCTDecode和CCITTFFaxDecode这3种过滤器处理的数据流,给出了详细的解决方案,然后对PDF页面内容进行两次解析,设计相应的文字图形等数据结构保存结果,最后对数据利用和功能扩展进行了讨论.通过实验结果表明,该模型能较好地实现PDF信息提取和显示,有利于PDF在中文信息处理领域中的进一步开发利用. 相似文献
9.
10.
一、引言结构化的文档格式Portable Document Format(PDF),由美国排版与图像处理软件公司Adobe于1993年首次提出,它是Adobe继页面描述语言PS(PostScript)之后,推出的最重要的电子文件规范,被广泛地应用于电子文件传送、交换和发行。由于其“高保真”的特性,已成为事实上的国际标准,目前流行的电子出版物基本上都是PDF格式的。 PDF从PS而来,具有与PS语言几乎相同的页面描述能力和相似的描述方法,但与PS语言不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及字体仿真描述等特性。 PS语言可以生成高质量的图文印刷输出,已成为工业标准并在当前印刷领域占统治地位。因此,利用PDF文件生成PS文件从而得到高质量的印刷输出,具有重要的意义。 相似文献
11.
PDF文件信息的抽取与分析 总被引:5,自引:0,他引:5
PDF文件网络信息抽取的重要资源。通过对PDF文件结构的分析,针对最流行的线性PDF文件,在论述如何从源代码中取出正文内容字符串流并进行解码的基础上,对从解码后的字符串流中提取出文本及其相关的字体、字号和换行等文本信息进行了详细的讨论。这将有助于根据需要进一步抽取PDF文件信息。 相似文献
12.
13.
PDF文件链接信息提取与修改 总被引:2,自引:0,他引:2
主要介绍了航空规章采用PDF文件格式,使用了书签、链接功能;利用AdobeAcrobat提供的编程接口编写Plug-in插件,实现了文件内和文件间的链接信息自动生成技术。 相似文献
14.
15.
16.
为了弥补现有的一页放置两个PDF的双面打印的携带及阅读不方便的不足,设计一种将PDF格式文档的页码顺序排列为适合打印成小册子的工具软件.该工具软件能将电脑中的PDF文档以一种排序方式重新排列页码.使得相同方式打印出来的页面在切割后可以装订为小册子。 相似文献
17.
18.
19.
PDF417作为一种广泛应用的二维条码,其检测定位成为条码识别过程中的关键,而复杂背景下条码的定位技术目前还不够完善。本文针对这一问题进行了研究,提出了一种基于数学形态学运算和Canny边缘检测的定位算法,并在此基础上作区域精确化处理,实现了条码的准确定位。实验结果表明,该方法能够有效提取出各种低对比度、边缘模糊、倾斜、商标干扰等复杂背景下的条码图像。 相似文献