首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
搜索引擎的混合索引技术   总被引:5,自引:0,他引:5  
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。  相似文献   

2.
吴文娟  车明 《微处理机》2006,27(6):83-85
倒排文件是搜索引擎检索系统普遍采用的索引技术。在实验基础上,针对中文搜索引擎中索引的时效性和传统倒排索引在更新时的缺点,提出分组索引技术和一种追加索引的更新算法,可以有效提高搜索引擎的检索效率,同时不影响系统检索效果。  相似文献   

3.
数据检索是当代比较常见的技术,而搜索引擎又是数据检索技术中的重中之重,它是处理文字,词句,大数据的最佳工具。本文对文中数据检索相关技术进行了较深的研究和探索。在基于web中的数据检索的搜索引擎技术方面,我们提出了一种改进倒排索引结构,比传统索引结果更加方便快捷。我们的重点放在web中数据检索的应用,如何利用新技术改善检索系统的结果,提高检索系统的性能和效率、加快检索速度、不断完善web中数据检索弊端,使其应用更加广泛。  相似文献   

4.
在研究垂直搜索引擎原理和开源工具Lucene等技术基础上,实现了对网络数据的抓取、分析、建立索引和检索。阐述了基于Lucene技术的索引和检索的实现方法。实验结果表明,该系统具有较高的检索效率和准确率。  相似文献   

5.
用户期望搜索引擎能提供基于语义的网页信息检索。基于本体、基于自然语言理解、基于文本统计分析的方法是实现中文网页语义检索的主要途径。分析了它们的实现方法、技术挑战和优、缺点;建议中文网页语义检索系统的开发应选择与普通用户联系紧密的应用领域,并以汉语词汇为索引单元,适量地采用中文信息处理技术。基于语义的中文网页检索应在以下方面加强研究:语义相关性评价方法、本体构建和实体抽取算法、基于语义的索引、大规模语义标注样本集开发等。  相似文献   

6.
互联网WWW图像搜索引擎的研究与设计   总被引:6,自引:0,他引:6  
分析了传统搜索引擎的图像搜索以及图像搜索引擎的原理与结构;在此基础上把基于内容的图像检索技术加入图像搜索引擎,设计了本文图像搜索引擎的框架结构,探讨了Robots、图片语义及低层特征的获取结构、索引数据库的结构与入库策略、以及用户访问界面的实现技术;最后,对当前的图像搜索技术局限性及发展趋势进行分析,探讨了图像搜索引擎的发展方向并提出了一些建议.  相似文献   

7.
基于Lucene的英汉跨语言信息检索   总被引:8,自引:0,他引:8  
描述了一个英汉跨语言检索系统的设计与实现,其主要研究目的在于寻找更为有效的英汉查询翻译方法,以及提高汉语检索系统的性能。在英汉查询翻译方面,以英汉双语词典为基础,建立了查询翻译算法。在汉语检索方面,分析不同索引单元对于检索性能的影响,基于Lucene全文索引工具包建立了搜索引擎。在系统评测方面,提出了一种根据主题,快速构建评测数据的方法。  相似文献   

8.
卢秉亮  朱健  张磊  郎勇 《微处理机》2007,28(1):75-77,81
Internet网络环境搜索引擎主要由三部分组成:搜索器、索引数据库和用户界面。检索器是搜索引擎中的核心和关键。通常的网络搜索引擎采用的是集合或模糊检索算法,其检索结果冗余大。主要介绍了搜索引擎索引数据库的结构;基于Spider的通用搜索器的实现;索引表的生成过程;精确检索原理、算法及实现。采用精确检索算法的搜索引擎,所搜索的信息冗余度小并且效率高。  相似文献   

9.
搜索引擎技术的优化处理方法   总被引:1,自引:0,他引:1  
刘芳  何守才 《计算机工程》2003,29(16):130-132
针对搜索引擎技术的现状进行了分析,总结了该技术目前存在的主要缺陷,并提出了相应的解决方案。包括:智能代理技术,分布式引擎技术和分段索引技术等。通过这些技术。可以改善搜索引擎的检索效率,提高其检索精度。  相似文献   

10.
随着互联网应用的深入,越来越多的用户希望通过搜索引擎获得特定行业的相关信息,通用搜索引擎无法有效地满足相应需求。文中主要介绍医药行业垂直搜索引擎的设计与实现。设计基于智能搜索引擎的架构,采用了任务驱动的聚焦搜索、隐藏搜索技术;字词混合倒排索引及优化的字倒排索引、检索技术。提供了资源收集阶段的可控策略爬行,和高效的索引、检索功能。实现了针对医药行业的高专业度、高准确率、高效率的信息垂直搜索。  相似文献   

11.
国内综合性搜索引擎时新性的计算   总被引:3,自引:0,他引:3  
一个搜索引擎所索引Web页面的“新鲜性”已成为评价其系统性能的指标之一。该文利用北大天网的实际搜集和Cho所检测Web变化的实验数据,计算了国内综合性搜索引擎在定期全面搜集时的时新性。  相似文献   

12.
搜索引擎用户访问量模型   总被引:4,自引:0,他引:4  
基于大规模分布式WWW搜索引擎系统---北大“天网”的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列,利用时间序列分析的方法,分别建立了天网用户的查询量、点击量和不同IP用户访问量的潜周期模型;结果显示模型对实际数据拟合效果较好;用户访问的主周期为24小时,其它周期依次为12小时、6小时、8小时、5小时、168小时(即一周);用户的异常访问情况可通过小波技术检测。  相似文献   

13.
互联网上FTP文件的分布特征及启示   总被引:8,自引:0,他引:8  
北京大学网络实验室的“天网”文件搜索引擎是国内自主开发的一个海量(FTP和HTTP)文件搜索引擎系统,它的数据库维护着1千多万的FTP文件与目录信息,索引了国内大部分匿名FTP站点。该文对“天网”的海量FTP文件目录信息的分布特征进行了研究,并分析了其对文件搜索引擎设计以及FTP服务器分类管理等方面的某些重要启示。该文的研究成果将增强人们对互联网上文件分布特征的了解,对于设计和优化一个大规模的文件搜索引擎系统具有积极的指导作用。  相似文献   

14.
一种基于Lucene的中文全文检索系统   总被引:2,自引:0,他引:2       下载免费PDF全文
在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分。论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率。该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性。  相似文献   

15.
随着企业内部网络应用的深入,Intranet内部的信息资源越来越庞大,怎样为这些数据信息构建索引是我们面If缶的主要任务,而全文检索的产生解决了这一问题。目前越来越多的中小企业采用Linux系统作为Web平台,并且利用检索系统来管理内部繁多的文本和HTML文件。文章对www搜索引擎的全文检索及其相关技术进行了分析和讨论,实现了一个基于Linux环境的Intranet搜索引擎LISE(Linux Intranet Search Engine)。LISE利用了基于词表的索引方法,为用户提供了更加准确的信息,能满足多种中小企业用户的需求。  相似文献   

16.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。  相似文献   

17.
网络信息的日益增加迫切需要适宜的检索工具,特别是进行专业信息的检索,需要体现专业词汇特点的搜索引擎。本文在对搜索引擎核心技术进行研究的基础上,提出了石油化工信息搜索引擎的设计方案,开发了网络机器人模块,实现了海量网页的自动获取;采用最短路径分词和正向最大匹配相结合的算法,实现了中文自动分词;开发了信息索引模块,实现了网页的批量索引和增量索引;开发了信息检索模块,提供布尔逻辑查询,实现摘要自动生成。通过系统集成,初步建立了体现石油化工专业特点的搜索引擎。  相似文献   

18.
一种中文网页自动分类方法的实现及应用   总被引:6,自引:0,他引:6  
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。  相似文献   

19.
站内搜索引擎是针对某个网站内部的全文检索服务,具备信息检索的核心技术。提出在文件系统上构建的解决方案,使用全文检索开发工具包——Lucene,实现站内搜索引擎系统。不仅针对关系数据库的数据,还对服务器文件系统上的各种非结构化文档数据进行加工、信息抽取,并创建索引文件进行搜索,最终实现对站内被检索数据的导航浏览,关键字高亮提示,筛选排序等。经过测试,检索效率较高,效果良好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号