共查询到20条相似文献,搜索用时 46 毫秒
1.
对于一些专业网站,站内搜索非常重要。本文研究了基于Lucene技术的Web站内搜索引擎的基本实现流程,详细分析了Lucene框架、网络蜘蛛、中文分词等关键技术。并对相关的技术进行了对比。进而说明了运用Lucene进行站内搜索开发的方法。 相似文献
2.
对于一些专业网站,站内搜索非常重要。本文研究了基于Lucene技术的Web站内搜索引擎的基本实现流程,详细分析了Lucene框架、网络蜘蛛、中文分词等关键技术。并对相关的技术进行了对比。进而说明了运用Lucene进行站内搜索开发的方法。 相似文献
3.
研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。 相似文献
4.
随着网络时代的发展,信息极具增加,搜索引擎已经成为人们最基本的应用。同时作为专业网站,实现网站信息的站内搜索已成为方便用户使用,吸引用户的基本要素。Lucene作为优秀的开源全文检索框架,可以很好的实现站内检索。 相似文献
5.
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。 相似文献
6.
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果.根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎.通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现.文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率. 相似文献
7.
8.
Lucene搜索引擎 总被引:2,自引:0,他引:2
Lucene是一个高性能、易扩展的基于Java技术的全文信息检索工具包,它能非常方便地为各种应用程序加入全文索引和搜索功能。该文探讨了Lucene中使用的向量空间模型,分析了Lucene索引文件的结构以及搜索排序算法,讨论了Lucene的压缩算法并且通过实验验证了Lucene的建立索引的过程。 相似文献
9.
10.
Lucene是一个开源的全文搜索引擎工具,利用Lucene的API可以较为方便的创建一个全文搜索引擎。JSF(JavaServerFaces)是一种用于构建Web应用程序的新标准Java框架。它提供了一种以组件为中心来开发Web程序的方法,从而简化了开发。本文将LuCelle和JSF结合起来实现搜索引擎。 相似文献
11.
刘运强 《计算机应用与软件》2010,27(7):130-132,151
通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。 相似文献
12.
SEO技术研究 总被引:4,自引:0,他引:4
范彦忠 《计算机应用与软件》2010,27(1):160-164
为了利用搜索引擎优化SEO(Search Engine Optimization)技术给网站带来高质量的流量并将其转化为商业利益,理解搜索引擎的算法和排名原理十分必要。通过对网站的结构优化、关键词优化、单页优化、防止被搜索引擎惩罚和挽救被惩罚网站等技术的研究,达到提高网站排名,实现网站的价值目的。 相似文献
13.
基于Lucene/Heritrix的垂直搜索引擎的研究与应用 总被引:2,自引:0,他引:2
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用.Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源.探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用. 相似文献
14.
音视频资源中包含的可检索信息少,而且通常访问粒度大,不利于对其检索和使用。基于Lucene全文搜索引擎构建了一个音视频资源检索系统。系统通过多种方式为音视频注入语义文字信息,标注音视频片段,在此基础上使用Lucene实现全文检索,同时结合数据库检索和增强的语义检索提高检索的效率。实验显示,检索的召回率、准确率和用户满意度都比较高。 相似文献
15.
搜索引擎的目的在于快速有效地找到用户需求的信息,在黄页搜索引擎中,通过关键字搜索,可以返回大量的信息,但其中的大部分信息不在用户需求的范围内.二次检索的定义是,在一次检索结果的基础上,按照特定的条件进行筛选,获得更为满足用户需求的结果.显然,二次检索在黄页搜索中的应用是必要的.基于这样的需求,提出了一种使用内存数据库和黄页搜索引擎联合进行二次搜索的方法. 相似文献
16.
岳国华 《计算机应用与软件》2008,25(2):124-125,145
使用ORACLE9i数据库平台,将Oracle InterMedia技术和J2EE技术相结合,通过网站内容管理的实现分析了Oracle InterMedia在实现多媒体数据处理方面的技术优势;给出了多媒体数据、特别是图像数据在ORACLE数据库中存储的基本设计方法、以及关系数据库环境下实现结构化与非结构化数据管理的基本思路. 相似文献
17.
在信息检索中,查询扩展一直被用来帮助提供更好的查询结果。作为一个热门话题,很多查询扩展方法被提出来,但其中大多数方法都是面向通用搜索引擎的,而没有考虑查询背景和领域背景,更没有考虑两个背景知识的演化。给出一种基于领域本体和查询日志的自适应的本体查询扩展方法 Adap-On。Adap-On首先自动地构建一个领域知识模型,之后通过查询日志增强这个模型,应用中通过基于查询模型和知识模型的混合方法给出扩展关键字,从而最终得到一个自适应查询扩展策略。实验结果表明,Adap-On是有效的,并且优于已有的方法。 相似文献
18.
基于本体的元搜索引擎结果排序算法研究 总被引:1,自引:1,他引:1
介绍了本体及元搜索引擎技术,认为将本体概念引入到元搜索引擎系统中,能够实现基于同义词、近义词的查询.给出了一个基于本体的元搜索引擎系统体系结构,介绍了系统的工作原理,提出了一种改进的摘要排序算法,并重点介绍了该算法的实现. 相似文献
19.
针对当前网络中城市交通信息以几何形式递增的趋势,研究面向城市交通信息垂直搜索引擎的设计与实现技术,提出改进的基于Nutch搜索引擎技术与Google地图服务相结合的方法,设计主题信息抓取、中文分词、主题相关性判断、构建索引等检索功能模块,以Web地图服务为平台,完成主题交通的搜索与分析服务。实验结果表明,相对于其他通用搜索引擎面向城市交通信息的垂直搜索引擎更具有主题优势,在交通特征领域爬行深度和覆盖范围都得到加强,改进的算法能够有效提取高质量的网页文档,同时,在交通信息定位和主题排序方面也更为精确。 相似文献