首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
本文在开源(Open Source)项目Jakarta Lucene的基础上,结合多种开源文档格式分析工具,设计和实现了一种可扩展的全文检索框架,该框架可高效地对XML、HTML、MS Word、PDF等格式的文档进行全文检索.整个框架完全基于开源工具包,可以有效地对信息系统的开发进行支持.  相似文献   

2.
针对中文检索的Lucene改进策略   总被引:4,自引:0,他引:4  
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。  相似文献   

3.
随着信息化水平不断提高,如何从海量信息中快速查找到所需内容成为当前研究的热点。在分析了全文检索基本原理及Lucene系统结构的基础上,提出了MVC模式的全文检索模型,并实现了一套基于SSH框架技术和Lucene搜索引擎的全文检索系统。该系统扩展了检索文档支持的类型,不仅可以对TXT、MS Office各类文档进行检索,还能对PDF、HTML、RTF等文档进行检索;改进了中文分词器,提高了中文分词效率与精确度;改善了人机交互方式,实现了类似百度、谷歌搜索显示功能,对搜索关键字进行高亮显示。系统应用情况表明,该系统创建索引效率高,具有较快的检索速度以及较全的检索结果。  相似文献   

4.
Lucene应用中Pdf文档文本数据提取方法研究   总被引:1,自引:0,他引:1  
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。  相似文献   

5.
Okapi BM25是一种相关性排序函数,适用于搜索引擎根据与给定搜索查询的相关性对匹配文档进行排序.通过BM25模型与开源搜索框架Lucene的有机结合,实现了BM25模型在Lucene中的检索评分.经实验表明,BM25模型在Lucene中有较好的表现,为进一步根据实际需求利用BM25模型和Lucene进行全文检索做出了有益的探索.  相似文献   

6.
利用本体和Lucene全文检索技术实现了对网络教育资源管理检索的基本功能,包括基于本体的查询语义扩展、网络教育资源文档索引及其分类管理、文档检索、检索结果排序与分页、用户注册与登录等。系统遵循MVC模式,基于JSF框架构建Web应用,使用JPA实现ORM映射,将EL表达式嵌入JSF标签和JSTL标签,运用Facelets模板技术构建Web页面,基于Lucene包进行全文检索,通过OWL API解析教育资源领域本体,扩展用户查询请求语义,提高了查全率和查准率。测试表明,该系统运行稳定,可访问性、可靠性好,操作简便。  相似文献   

7.
胡博  蒋宗礼 《计算机科学》2016,43(9):247-249, 273
文档检索结果的排序和文本分类技术是解决垂直搜索、个性化信息检索、信息过滤等相关问题的核心技术。为了提高检索系统的性能,针对Lucene的基础排序算法,提出了一种融合位置相关和概率排序的改进方法。考虑到查询词在文档中出现的位置信息和概率排序对文档相关性的影响,利用位置相关的查询词权值和基于朴素贝叶斯分类算法的文档相关性概率值,对Lucene基础排序算法的评分公式进行改进。实验表明,该改进方法能够有效提高垂直搜索的准确率,使用户拥有更好的垂直搜索体验。  相似文献   

8.
基于Lucene的全文检索引擎研究与应用   总被引:5,自引:0,他引:5  
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。  相似文献   

9.
虽然布尔查询是信息检索领域中较早提出的一个概念,但是对布尔查询的大量研究主要还是针对布尔操作一致的布尔查询。对于复杂布尔查询,目前并没有太多的相关研究,复杂布尔查询却越来越被频繁地使用(如文本推荐领域)。为了促使这类查询能够被更加高效地执行,提出了一种基于DAAT(document-at-a-time)框架的文档收集打分策略——DCQ(DAAT for complex query)算法,并与著名开源搜索引擎Lucene进行比较实验,查询性能有了显著提升。此外,提出了一套对查询性能的回归预测机制,该机制能比较准确地决策DCQ算法的使用时机。实验表明,结合了性能预测器的复合算法要远优于Lucene当前的文档收集打分算法。  相似文献   

10.
基于Lucene全文检索引擎的应用研究与实现   总被引:20,自引:0,他引:20  
Lucene全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.首先介绍了一个高性能的全文检索引擎--Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现.  相似文献   

11.
为了改善传统全文检索方法在检索效率上的不足,结合Lucene构建了一个全文检索系统模型。介绍了全文检索的基本过程、Lucene源码结构和逻辑结构,分析了Lucene的索引组成,对比了Lucene全文检索和其它全文检索的区别。该模型可用于中小型的全文检索系统的实现,同时可基于此模型开发定制个性化的搜索引擎。最后通过实验对比了其与传统检索方式的响应时间,利用Lucene的全文检索具有更快的响应速度。  相似文献   

12.
音视频资源中包含的可检索信息少,而且通常访问粒度大,不利于对其检索和使用。基于Lucene全文搜索引擎构建了一个音视频资源检索系统。系统通过多种方式为音视频注入语义文字信息,标注音视频片段,在此基础上使用Lucene实现全文检索,同时结合数据库检索和增强的语义检索提高检索的效率。实验显示,检索的召回率、准确率和用户满意度都比较高。  相似文献   

13.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

14.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

15.
随着信息检索技术的发展,通用文献检索系统已经取得了极大的成功,但在这些系统中进行文献检索工作时,检索结果的范围太广,无法满足科研人员专业化、个性化的需求。以水利领域为例,进行面向特定领域的文献检索系统的设计。具体地,对现有水利科技文献进行分类,形成水利领域词典,构建水利文献专有数据库;采用全文检索的技术和框架Lucene,对数据库中的水利文献建立双语索引,实现中英互搜功能。  相似文献   

16.
简要分析了目前国内自动答疑系统的现状以及自动答疑系统在网络教学中的重要性,然后对全文检索引擎工具包Lucene进行分析,充分利用其在索引和检索方面的强大功能,对其在中文分词方面的薄弱加以完善,研究设计了一个在线自动答疑系统。  相似文献   

17.
基于Lucene的全文检索构件的研究与实现   总被引:2,自引:0,他引:2  
Lucene是一个高效全文检索工具包,但它不能直接处理文件和数据库。主要研究Lucene的体系架构及其索引的不足之处,并在其基础上设计实现了一个全文检索构件。该构件能够直接对文件及数据库进行全文检索,使用户在不用编写程序的情况下,快速为自己的桌面系统或Web系统添加全文检索功能。使用插件架构,同时实现了多媒体文本提取插件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号