共查询到19条相似文献,搜索用时 171 毫秒
1.
搜索引擎的混合索引技术 总被引:5,自引:0,他引:5
彭波 《计算机工程与应用》2004,40(22):16-18
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。 相似文献
2.
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。 相似文献
3.
赵明宇 《自动化技术与应用》2015,(1):30-32
数据检索是当代比较常见的技术,而搜索引擎又是数据检索技术中的重中之重,它是处理文字,词句,大数据的最佳工具。本文对文中数据检索相关技术进行了较深的研究和探索。在基于web中的数据检索的搜索引擎技术方面,我们提出了一种改进倒排索引结构,比传统索引结果更加方便快捷。我们的重点放在web中数据检索的应用,如何利用新技术改善检索系统的结果,提高检索系统的性能和效率、加快检索速度、不断完善web中数据检索弊端,使其应用更加广泛。 相似文献
4.
5.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。 相似文献
6.
互联网WWW图像搜索引擎的研究与设计 总被引:6,自引:0,他引:6
分析了传统搜索引擎的图像搜索以及图像搜索引擎的原理与结构;在此基础上把基于内容的图像检索技术加入图像搜索引擎,设计了本文图像搜索引擎的框架结构,探讨了Robots、图片语义及低层特征的获取结构、索引数据库的结构与入库策略、以及用户访问界面的实现技术;最后,对当前的图像搜索技术局限性及发展趋势进行分析,探讨了图像搜索引擎的发展方向并提出了一些建议. 相似文献
7.
基于Lucene的英汉跨语言信息检索 总被引:8,自引:0,他引:8
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。 相似文献
8.
9.
搜索引擎技术的优化处理方法 总被引:1,自引:0,他引:1
针对搜索引擎技术的现状进行了分析,总结了该技术目前存在的主要缺陷,并提出了相应的解决方案。包括:智能代理技术,分布式引擎技术和分段索引技术等。通过这些技术。可以改善搜索引擎的检索效率,提高其检索精度。 相似文献
10.
随着互联网应用的深入,越来越多的用户希望通过搜索引擎获得特定行业的相关信息,通用搜索引擎无法有效地满足相应需求。文中主要介绍医药行业垂直搜索引擎的设计与实现。设计基于智能搜索引擎的架构,采用了任务驱动的聚焦搜索、隐藏搜索技术;字词混合倒排索引及优化的字倒排索引、检索技术。提供了资源收集阶段的可控策略爬行,和高效的索引、检索功能。实现了针对医药行业的高专业度、高准确率、高效率的信息垂直搜索。 相似文献
11.
国内综合性搜索引擎时新性的计算 总被引:3,自引:0,他引:3
王继民 《计算机工程与应用》2003,39(21):47-49
一个搜索引擎所索引Web页面的“新鲜性”已成为评价其系统性能的指标之一。该文利用北大天网的实际搜集和Cho所检测Web变化的实验数据,计算了国内综合性搜索引擎在定期全面搜集时的时新性。 相似文献
12.
搜索引擎用户访问量模型 总被引:4,自引:0,他引:4
基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。 相似文献
13.
互联网上FTP文件的分布特征及启示 总被引:8,自引:0,他引:8
北京大学网络实验室的“天网”文件搜索引擎是国内自主开发的一个海量(FTP和HTTP)文件搜索引擎系统,它的数据库维护着1千多万的FTP文件与目录信息,索引了国内大部分匿名FTP站点。该文对“天网”的海量FTP文件目录信息的分布特征进行了研究,并分析了其对文件搜索引擎设计以及FTP服务器分类管理等方面的某些重要启示。该文的研究成果将增强人们对互联网上文件分布特征的了解,对于设计和优化一个大规模的文件搜索引擎系统具有积极的指导作用。 相似文献
14.
15.
随着企业内部网络应用的深入,Intranet内部的信息资源越来越庞大,怎样为这些数据信息构建索引是我们面If缶的主要任务,而全文检索的产生解决了这一问题。目前越来越多的中小企业采用Linux系统作为Web平台,并且利用检索系统来管理内部繁多的文本和HTML文件。文章对www搜索引擎的全文检索及其相关技术进行了分析和讨论,实现了一个基于Linux环境的Intranet搜索引擎LISE(Linux Intranet Search Engine)。LISE利用了基于词表的索引方法,为用户提供了更加准确的信息,能满足多种中小企业用户的需求。 相似文献
16.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。 相似文献
17.
具有扩充检索功能的石油化工专业信息搜索引擎的设计与开发 总被引:2,自引:0,他引:2
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。 相似文献
18.