首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

2.
吴代文 《微型电脑应用》2011,27(8):39-41,73
通过Lucene API实现对PDF文档的一次全文检索,为了实现更精确的搜索关键词定位,设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似Google Book的图书检索效果。系统测试结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足站内用户快速检索的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

3.
在Lucene的全文检索中,直接对PDF文档进行全文检索几乎是不可能的。在实际应用中又需要对大量的PDF文档进行检索,通过Xpdf工具先对PDF文档转换为TXT文本,然后对TXT文本建立索引,在进行检索时通过文件名实现和原始PDF文档的一一对应,最终实现PDF文档的全文检索功能,同时还能实现对PDF文档所检索的包含关键词的内容进行高亮显示,实现全文检索的功能,通过实际项目应用,检索效果能够达到很好的效果。  相似文献   

4.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

5.
基于模糊语言方法的信息检索系统的研究   总被引:4,自引:2,他引:2  
该文提出了一个基于模糊语言方法的信息检索系统模型。该系统分为查询界面子系统、数据库子系统和检索子系统三大部分。在查询界面子系统,用布尔表达式表示用户的查询请求,并对每个查询关键词赋予了两种不同语义的语言值权重,该权重表达了用户的模糊检索要求;在数据库子系统,用索引词一文档模糊矩阵表示待检索的文档,对每个索引词。根据其在文档中的出现频率大小。引入了数值权重;在检索子系统,运用模糊语言方法,对用户输入的布尔查询表达式与索引词一文档模糊矩阵进行自底向上的模糊匹配,最后返回满足用户要求的检索结果。相对于传统的基于查询关键词精确匹配的检索系统而言,该系统能较好地满足用户查询要求中的灵活性。  相似文献   

6.
针对在站群系统中目录检索所面临的不能全文检索以及关键词检索效率不高等问题,文章利用开源框架Lucene设计实现了一款站群全文检索系统。主要实现了站群内网页抓取、网页信息处理与索引、数据检索和用户交互界面等模块。该站群全文检索系统目前系统已上线,运行表明检索效率高,达到了较为精确的全文检索要求。  相似文献   

7.
随着互联网上XML文档的大量增加,如何高效地索引、存储和检索这些XML数据成为一个非常值得深入研究的课题.目前,在XML关键词检索方面,主流的检索系统都是建立在一级索引的基础上.一级索引存在两个明显的缺点:1)索引的冗余度比较高;2)索引的可扩展性和灵活性较差.通过结合传统倒排索引和基于杜威编码的XML节点索引的优点,提出面向XML文档的二级索引模型,并把该模型应用于求解XML关键词检索中的SLCA,实现了基于二级索引的求解SLCA的栈算法.实验表明,二级索引模型能够节省约30%的空间开销,在时间效率方面,基于二级索引的栈算法在效率上比基于一级索引的栈算法要高1个数量级左右,并且随着关键词数目的增加,这种效率优势会越加明显.  相似文献   

8.
为满足办公室环境下文档资料全文检索的需求,本文基于Lucene API研究并实现了一个面向海量文档数据的全文检索系统,该系统能实现对DOC、XLS和PDF等各种格式文档资料的全文检索。系统在实际办公室资料检索应用的结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足办公室人员快速检索文档资料的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

9.
韩升  刘广志 《微机发展》2006,16(3):208-210
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

10.
吴代文 《网友世界》2013,(18):11-11
为满足办公室环境下文档资料全文检索的需求,本文基于LuceneAPI研究并实现了一个面向海量文档数据的全文检索系统,该系统能实现对DOC、XLS和PDF等各种格式文档资料的全文检索。系统在实际办公室资料检索应用的结果说明系统具有良好检索性能,有较高的查全率和查准率,能够满足办公室人员快速检索文档资料的需求。通过扩展,系统可以适应C/S和B/S这两种应用需求,有广阔的应用前景。  相似文献   

11.
全文检索系统的数据预处理研究   总被引:1,自引:0,他引:1  
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研发的核心。在一个全文检索系统中,全文索引数据库的建立是系统的基础,其设计结构直接影响到全文检索引擎的检索算法以及系统最终的检索效率。文中主要介绍全文检索系统中索引库结构设计、文本标引技术等数据预处理技术,以及全文检索系统索引数据库的数据处理流程。最后,在此基础上研究了全文检索系统索引库索引生成算法,给出了单个文档和批处理两种情况下的索引库索引生成算法。  相似文献   

12.
Lucene是一个优秀的开源全文搜索技术框架,Lucene全文检索技术是信息检索领域广泛使用的基本技术.它能非常方便地为各种应用程序加入全文索引和搜索功能,快速有效地索引企业累积的大量信息资源.文中阐述了建立全文检索系统的必要性,介绍了全文检索系统的概念并分析了Lucene的系统结构和实现机制,最后结合实际应用背景从系统设计、文挡抽取、索引的建立及执行检索等方面介绍了全文检索系统的实现过程.实践证明,该系统的查准率、查询速度等均达到了设计要求.  相似文献   

13.
一种基于PDF文档的数字水印算法   总被引:6,自引:0,他引:6  
针对网络环境中对多媒体文本文档的篡改、盗版严重的问题,通过分析PDF文档的页面操作符以及具体参数的详细分析,提出并实现了一种基于PDF文档的数字水印算法.将水印信息添加到PDF(Portable Document Format)文档中文本字符码的特征信息中,通过检测从PDF文档中提取的水印信息与字符码的一致性来辨别该文档的真实性.试验结果表明,该算法具有很好的视觉透明性,而且便于出错信息的定位,是一种切实可行的数字水印算法.  相似文献   

14.
基于全文检索引擎的信息检索技术的应用研究   总被引:3,自引:0,他引:3  
利用基于JAVA的全文检索引擎Lucene软件包实现了一个电子文档全文检索,并对文本建立索引的4种不同的分词方式进行了讨论及适当地改进.为了提高搜索结果的准确度,在原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索方式.在提高用户体验度方面,采用了Ajax异步通信技术,在用户输入查询条件时,实时地从数据库中提取相关关键词,给与用户提示,供用户选择.  相似文献   

15.
基于Java界面设计框架Swing和开源全文检索引擎Lucene,设计与实现了一款实用桌面搜索引擎系统,利用该桌面搜索引擎系统可以快速实现本地文件的索引和检索.  相似文献   

16.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

17.
一种新的基于XML的索引机制   总被引:3,自引:1,他引:3       下载免费PDF全文
当前基于Web的半结构化数据越来越受到重视。该文分析了当前对XML数据检索的相关工作,提出了一种路径索引技术,并将之无缝结合了基于文本的倒排索引文档,以实现XML文档的内容和结构的双重检索。该方法只需要对文档库扫描一次,可以大幅度降低用户查询时间。  相似文献   

18.
《软件工程师》2017,(6):12-14
如今互联网上藏文信息也不断的扩充,藏文搜索引擎作为常用的信息检索的工具和渠道,倒排索引又是搜索引擎的核心技术之一,倒排索引直接影响搜索引擎检索的结果和响应的速度。之所以文章详细介绍了一个自主开发的藏文网页倒排索引系统,它以XML文档的标签内容作为索引对象,定义了文档和文档属性等概念,采用C#语言对文藏文网页正文构建倒排索引的关键技术和实现方法进一步的阐述,实现了基于XML文档的藏文网页倒排索引数据库的底层实现,提供了技术参考。利用这种方法藏文搜索引擎中信息检索的速度和准确率有所提高。  相似文献   

19.
多个分类方式不同的构件库之间,实现互通,可以有效扩大重用者检索构件的范围和提高检索效率,而检索的查准率和查全率是多构件库检索亟待解决的问题。在对关键词检索的原理和语义关系模型进行分析后,利用领域本体,提出一种基于用户反馈的语义关系识别的多构件库二次检索模型,从而获得高质量的检索结果。实验结果证明了该方法的有效性和可行性。  相似文献   

20.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号