首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
吴代文  詹海生 《微机发展》2011,(10):121-124
通过LuceneAPI实现对PDF文档的一次全文检索,为了更精确地定位搜索关键词,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似GoogleBook的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足用户快速检索的需求。系统作为西安市数字方志全文检索平台投入使用已有2年,取得了较好的应用成果。  相似文献   

2.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

3.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

4.
吴代文 《微型电脑应用》2011,27(8):39-41,73
通过Lucene API实现对PDF文档的一次全文检索,为了实现更精确的搜索关键词定位,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似Google Book的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足站内用户快速检索的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

5.
基于XML的PDF文档内容与结构的表示的实现   总被引:2,自引:0,他引:2  
在对网络信息资源进行检索、过滤、提取的过程中,对于文档格式的转换是进行信息处理的必然途径。将PDF文档转换为XML文档,在对分析PDF文档的内容和结构方面具有重要意义。论文介绍了从PDF文档向XML文档转换的设计和实现原理。  相似文献   

6.
现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。  相似文献   

7.
一种基于PDF文档的数字水印算法   总被引:6,自引:0,他引:6  
针对网络环境中对多媒体文本文档的篡改、盗版严重的问题,通过分析PDF文档的页面操作符以及具体参数的详细分析,提出并实现了一种基于PDF文档的数字水印算法.将水印信息添加到PDF(Portable Document Format)文档中文本字符码的特征信息中,通过检测从PDF文档中提取的水印信息与字符码的一致性来辨别该文档的真实性.试验结果表明,该算法具有很好的视觉透明性,而且便于出错信息的定位,是一种切实可行的数字水印算法.  相似文献   

8.
钟征燕  郭燕慧  徐国爱 《计算机应用》2012,32(10):2776-2778
在数字产品日益普及的今天,PDF文档的版权保护问题已成为信息安全领域研究的热点。通过分析PDF文档的结构及相关数字水印算法,针对当前一些大容量文本水印算法存在增加文档大小的缺陷,提出了一种基于PDF文档结构的数字水印算法。该算法利用行末标识符不会在文档中显示的特性,通过等量替换PDF文档中具有固定格式的交叉引用表的行末标识符,来实现水印信息的间接嵌入。实验结果表明,该算法水印容量能满足数字版权保护的要求,隐蔽性好,能抵抗统计等攻击。  相似文献   

9.
为满足办公室环境下文档资料全文检索的需求,本文基于Lucene API研究并实现了一个面向海量文档数据的全文检索系统,该系统能实现对DOC、XLS和PDF等各种格式文档资料的全文检索。系统在实际办公室资料检索应用的结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足办公室人员快速检索文档资料的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

10.
PDF文档在Web上出版技术研究   总被引:2,自引:0,他引:2  
本文详细讨论了PDF文档的特点,并对Web服务器对PDE文档的支撑环境PDF文档与应用等方面进行探讨.最后通过实例给出应用ASP技术实现PDF与eb数据库集成的过程.该项技术对PDF的网络出版、电子商务票据生成有很好的应用前景.  相似文献   

11.
基于Lucene的文档管理系统的设计与实现   总被引:1,自引:0,他引:1  
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点.基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索.从而能够方便的查找各类文档,进而更好地实现对各类文档的管理.  相似文献   

12.
基于Hibernate搜索的数据库全文检索系统   总被引:3,自引:0,他引:3       下载免费PDF全文
现有关系数据库提供的全文检索服务对中文支持有限且难以检索二进制文本。针对该问题,在开源的数据库检索工具Hibernate搜索的基础上,提出一个对关系数据库内容进行全文检索的模型。该全文检索模型可支持关系对象映射、多种复合查询、中英文混合检索,并能检索以二进制格式存储在数据库中的多种类型的文本文件。  相似文献   

13.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

14.
International Journal on Document Analysis and Recognition (IJDAR) - Raster-image PDF files originating from scanning or photographing paper documents are inaccessible to both text search engines...  相似文献   

15.
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。  相似文献   

16.
Semantic search is gradually establishing itself as the next generation search paradigm, which meets better a wider range of information needs, as compared to traditional full-text search. At the same time, however, expanding search towards document structure and external, formal knowledge sources (e.g. LOD resources) remains challenging, especially with respect to efficiency, usability, and scalability.This paper introduces Mímir—an open-source framework for integrated semantic search over text, document structure, linguistic annotations, and formal semantic knowledge. Mímir supports complex structural queries, as well as basic keyword search.Exploratory search and sense-making are supported through information visualisation interfaces, such as co-occurrence matrices and term clouds. There is also an interactive retrieval interface, where users can save, refine, and analyse the results of a semantic search over time. The more well-studied precision-oriented information seeking searches are also well supported.The generic and extensible nature of the Mímir platform is demonstrated through three different, real-world applications, one of which required indexing and search over tens of millions of documents and fifty to hundred times as many semantic annotations. Scaling up to over 150 million documents was also accomplished, via index federation and cloud-based deployment.  相似文献   

17.
全文检索技术是从海量信息里精确查找所需信息的最有效手段,它的应用提高了海量文档的检索效率。该文阐述了SQLServer 2000全文检索技术在无纸化考试子系统中的具体应用,该系统采用了B/S结构,应用业务层采用C#语言开发,用户界面层采用ASP.NET开发。  相似文献   

18.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号