首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 500 毫秒
1.
网站黄页系统是一个自动生成网站黄页目录并以此为基础为用户提供一系列服务的系统。它通过快速收集网络上的教育资源,并自动化地对其进行高质量的分类和信息抽取,形成教育网站黄页,为用户提供浏览、检索等服务。未经过二次开发的黄页系统检索的准确性普遍较低,不适合校园网络的使用.针对普通搜索引擎的固有缺陷,提出了一种应用于新闻检索的搜索引擎,该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。  相似文献   

2.
提出一种基于Lucene搜索引擎库的本体映射方法,该方法利用了Lucene的特点,为源本体建立一个Lucene文档形式的索引,在索引中收集了关于URlrefs的语言信息;然后利用目标本体的URIrefs来作为搜索条件,针时源本体建立的索引进行搜索,从而得到映射.性能分析结果表明,该方法与其他方法相比,在查准率和查全率上有绝对的优势.  相似文献   

3.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

4.
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。该文结合使用Heritrix与Lucene对学校新闻网站网页进行抓取并建立索引,建立相对应的新闻垂直搜索引擎系统。  相似文献   

5.
通用搜索引擎在广泛使用的同时,也出现了搜索范围太宽泛、搜索结果中冗杂信息过多、搜索不够精确等问题。在对搜索引擎的工作原理进行深入学习之后,提出基于Lucene的企业信息垂直搜索系统,并调用百度地图API,采用Java语言编程实现该系统。  相似文献   

6.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

7.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。  相似文献   

8.
当今搜索引擎已经成为人们在网上搜索信息的重要工具.通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全.Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎.文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能.  相似文献   

9.
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎.对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页.采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类.实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息.  相似文献   

10.
为了解决用户能够快速、准确的搜索互联网上数字作品信息的问题,分析设计了一个对数字作品版权唯一标识符(Digital Copyright Identifier简称DCI)数字作品的垂直搜索引擎.首先基于Heritrix网络爬虫技术,对互联网上的数字作品进行数据采集和正文信息抽取,并将抽取的数据保存到本地;然后基于Lucene的全文检索工具包,对本地数据进行分词、倒排索引、索引检索和改进的相关度排序等处理,最终设计实现了一个通用可扩展的DCI垂直搜索引擎.实验结果表明,该搜索引擎在很大程度上提高了网页信息抽取的准确度和数据的检索效率.  相似文献   

11.
本文在充分实验的基础上,利用Lucene技术实现了桌面批量文件全文搜索引擎,并通过检测词库工具显示Lucene索引数据,阐述了全文搜索的工作原理。  相似文献   

12.
基于Nutch的搜索引擎的研究   总被引:6,自引:0,他引:6  
Nutch是一个开放源代码的Web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,其工作流程和现代的商业搜索引擎工作原理一样,即网页搜集、预处理(建立索引)和查询服务.由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平.我们可以利用Nutch并结合中文分词技术来构建自己的中文搜索引擎.  相似文献   

13.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。  相似文献   

14.
基于Lucene全文检索应用研究   总被引:1,自引:0,他引:1  
通过Lucene API和PDFBox API实现对PDF文档的二次全文检索。为了实现精确的搜索关键词定位,本文设计并实现了一种新的二次索引算法,该二次索引带有关键词的页码、坐标及其上下文等信息。利用该二次索引可将检索结果定位到PDF文档的具体页,然后在页面上标示出关键字的具体位置,使对PDF文档的二次检索达到了类似百度文库的全文检索效果。  相似文献   

15.
对Lucene在搜索和索引中表现出来的特点做了研究,对基于Lucene的搜索策略做了阐述,并结合一个应用案例对搜索策略进行了说明。对于如何在分布式环境下建立强大的搜索引擎进行了探讨。  相似文献   

16.
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度.Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引.但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈.在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题.  相似文献   

17.
基于Lucene的搜索引擎在远程教育平台中的应用   总被引:1,自引:0,他引:1  
一个好的搜索引擎可以使用户高效地搜索到自己需要的信息.Lucene是一个用Java写的全文索引工具包,访问索引速度快,支持多用户访问,可以跨平台使用.分析Lucene的索引原理,实现了一个基于Lucene的远程教育平台的应用.  相似文献   

18.
随着网络技术的快速发展,通用搜索引擎已经不能满足用户的一些需求,特别是当用户需要搜索某一领域内的信息时,垂直搜索引擎就正好符合这种需求。以手机资源为背景,通过运用扩展Heritrix和Lucene,构建了一个检索结果比较精准的垂直搜索引擎。研究了通过定制和扩展Heritrix从互联网上爬取相关的信息资源,利用HtmlParser工具对爬取的信息进行分析和抽取,运用Lucene建立全文索引和提供检索服务,并设计了MVC的查询接口。通过响应时间、查全率和查准率的测试实验表明,系统达到了设计目标。  相似文献   

19.
一种基于Lucene的影片搜索引擎的研究和应用   总被引:1,自引:0,他引:1  
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。  相似文献   

20.
丁兆贵  金敏 《微机发展》2011,(2):105-108
越来越多的用户在使用搜索引擎时希望能提供快速有效的个性化的查询结果。根据搜索引擎的工作原理,在研究分析开源的搜索引擎工具Lucene的系统架构、模型和索引器的基础上,设计了武警部队网站个性化搜索引擎。通过二阶段数据处理流程实现信息的增量采集,通过采用逆向词典结构实现自动分词以及利用双向分词器进行倒排索引的功能,最后利用Tomcat服务器进行了部署实现。文中所设计的个性化搜索引擎提高了原Lucene搜索引擎的速度和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号