共查询到20条相似文献,搜索用时 390 毫秒
1.
随着Internet上的信息量急剧增加,如何使用户获得有用的信息已成为信息检索系统急需解决的问题。提供个性化的信息检索服务必须以用户的需求为中心。本文从个性化检索服务的概念、个性化信息的收集、个性化信息检索服务方式和关键技术等几个方面进行了探讨。 相似文献
2.
一种基于动态平衡树的在线索引快速构建方法 总被引:2,自引:0,他引:2
倒排索引的构建可以通过离线方式高效地完成,但是仅当整个数据集索引完毕后方可提供检索服务.在线索引可以在构建倒排索引的同时提供检索服务,新加入的文档即刻可供检索.提出了一种基于动态平衡树的在线索引更新策略,利用动态平衡树控制索引合并过程,使索引合并总是在大小相近的子索引之间进行,以减少索引合并代价,同时可以调节索引和检索之间的性能平衡.该方法提供了一个基于合并的在线索引更新框架,与已有方法相比具有更好的通用性、更高的性能和更好的规模可扩展性.在由4000万张网页构成的270 GB Web数据集上运行的实验表明,该方法在实际系统中是高效的,将索引更新的性能提高了92.28%,而检索性能仅下降4.79%,大幅度降低了在线索引构建的代价. 相似文献
3.
WWW上的信息发现与搜索引擎技术 总被引:36,自引:1,他引:36
随着Internet在我国逐步得到普遍应用以及WWW上中文信息量的不断增长,迫切需要研制适合我国国情的中英文Web索引和检索服务系统。WWW的信息发现和搜索引擎又称robot负责搜索物获取指定范围内的有关数据。本文对Web搜索引擎的工作原理和关键技术进行讨论和分析,并分析了我们在研制中英文Web索引和检索服务器方面所做的工作,包括系统总体结构和汉语分词技术等。 相似文献
4.
5.
网站黄页系统是一个自动生成网站黄页目录并以此为基础为用户提供一系列服务的系统。它通过快速收集网络上的教育资源,并自动化地对其进行高质量的分类和信息抽取,形成教育网站黄页,为用户提供浏览、检索等服务。未经过二次开发的黄页系统检索的准确性普遍较低,不适合校园网络的使用.针对普通搜索引擎的固有缺陷,提出了一种应用于新闻检索的搜索引擎,该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。 相似文献
6.
基于Lucene的全文检索引擎研究与应用 总被引:5,自引:0,他引:5
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。 相似文献
7.
随着中医药行业的快速发展,中医药相关数字化资源急剧增加,传统的全文搜索引擎因专业性不够强、内容繁多等问题导致用户无法快速方便地找到所需信息.为此,设计并实现了一款面向中医药领域的垂直搜索引擎具有重要的意义和价值.采用Heritrix与Lucene等技术构建中医药垂直搜索引擎——杏林搜索,重点介绍了杏林搜索的设计与实现,包括网络爬虫模块、网页解析模块、索引库和Web端等.实际应用效果表明,杏林搜索可以为用户提供更加快速、专业的中医药资源检索服务. 相似文献
8.
基于Lucene的全文检索引擎研究与应用 总被引:3,自引:2,他引:3
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问、可以跨平台使用。文中研究了Luocne系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。 相似文献
9.
介绍一个搜索引擎系统的开发。运用UML用例图做系统的需求分析,运用UML类图、状态图、包图进行系统设计。以OCL表达式丰富状态图。使用C#语言和ASP.NET编程,SQL Server存储信息,系统运行在微软.NET环境上。遵循面向对象方法,如逐步求精和模块化,建立UML/OCL模型、组织程序,将系统逐层分解成具有特定功能的模块。系统由收集器、索引器、检索器三大部分组成,分别负责数据收集、数据分析和索引构建、用户检索接口。论文报告系统分析、设计和实现的思想和过程。 相似文献
10.
为了促进区域云数字图书馆与三网融合的结合,使区域图书馆扩展信息资源,更好地为读者服务,针对目前区域云数字图书馆在三网融合环境下跨库检索的困难,对该环境下的跨库检索服务进行了研究。首先研究来自于三网的信息资源、异构终端并进一步研究跨库检索服务的需求,随后提出该环境下跨库检索服务的模型,再根据跨库检索服务的模型提出相对应的跨库检索服务的流程,最后对信息资源的管理与定制、信息资源的权限、信息资源的推送、跨媒体检索进行了研究。 相似文献
11.
随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对该情况,设计并实现一个基于Solr的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本文件;然后利用Solr索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度;系统通过Zoo-keeper管理集群,将搜索模块设计为分布式,有效地提高检索性能;最后设计了友好的用户界面。目前,系统可以在百万数据量的环境下稳定运行,具有较强的实用价值。 相似文献
12.
13.
14.
15.
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。 相似文献
16.
陈凤娇 《电脑与微电子技术》2011,(15):18-20
介绍Lucene的索引和排序技术,并对排序技术进行改进,利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现索引器、检索器、中文分析器等模块,完成一个基于Lucene的搜索引擎的应用。改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。 相似文献
17.
随着保险行业信息化规模的不断扩大,各垂直领域的业务数据越来越多,不可避免地给传统结构化数据库在存储和查询效率方面带来了巨大挑战。如何实现数据的冗余备份和快速、高效查询已成为企业信息技术的一大难题。本文提出一种基于ElasticSearch的车型分布式搜索引擎,同时结合Logstash进行数据收集,实现车型数据的过滤存储和索引,并为保险出单系统提供统一的查询入口和高效的检索服务。实践表明,该系统可实现数据的冗余备份并提高检索车型数据的效率,目前已经在保险行业核心系统得到实际应用,取得了较好效果。 相似文献
18.
19.
针对现有基于日志结构合并树(LSM-Tree)实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查询效率;然后,提出了分布式索引构建算法以及基于等距取样的索引区间划分算法,从而保证了索引在系统中的均匀分布,并且优化了传统索引的查询算法,将索引文件看作特殊的数据文件分布式地存储在系统中,从而保证了系统的负载均衡和可扩展性;最后,将该方法与华为二级索引方案HIndex在HBase数据库上进行实验来比较二者的索引构建的时间和空间开销、索引的查询性能和系统的负载均衡等性能,验证得出所提出的方法使查询性能提升了50~200倍。 相似文献