首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
信息搜集子系统是搜索引擎的核心,也是搜索引擎设计中最复杂的部分,本文对信息搜集子系统所涉及的关键问题进行了分析和研究,并有针对性地提出了解决方案。  相似文献   

2.
基于WEB的面向主题搜索引擎的设计与实现   总被引:3,自引:2,他引:3  
针对目前通用搜索引擎所搜索到的结果过多、与主题相关性不强的情况,提出了面向主题的搜索引擎,并从系统结构方面将系统划分为特征提取、存取分析以及搜索控制等3个子系统,并给出了其具体的实现策略。  相似文献   

3.
网页变化与增量搜集技术   总被引:9,自引:1,他引:8  
孟涛  王继民  闫宏飞 《软件学报》2006,17(5):1051-1067
互联网络中信息量的快速增长使得增量搜集技术成为网上信息获取的一种有效手段,它可以避免因重复搜集未曾变化的网页而带来的时间和资源上的浪费.网页变化规律的发现和利用是增量搜集技术的一个关键.它用来预测网页的下次变化时间甚至变化程度;在此基础上,增量搜集系统还需要考虑网页的变化频率、变化程度和重要性,选择一种最优的任务调度算法来决定不同网页的搜集频率和相对搜集次序.针对网页变化和增量搜集技术这一主题,对最近几年的研究成果作总结,并介绍最新的研究进展.首先论述对网页变化规律的建模、模型参数估计和估计效率等问题;然后介绍几个著名的增量搜集系统,着重分析它们的任务调度算法;最后,从理论上分析和总结增量搜集系统的最佳任务调度算法及其一个基于启发式策略的近似解,并预测其将来的研究趋势.该工作对增量搜集系统的设计和Web演化规律的研究具有参考意义.  相似文献   

4.
一种WWW搜索引擎的设计与实现   总被引:2,自引:1,他引:2  
随着Internet在我国的迅速发展和WWW信息的不断增长,迫切需要开发中英文兼容的WWW搜索引擎来获得所需的信息。该文在分析WWW搜索引擎主要功能模块:信息采集模块、信息预处理模块和信息查询模块的基础上,提出采用人工智能搜索算法来遍历网页,对中英文网页进行自动的索引,并用向量空间的表示方法来表示网页内容和用户输入的查询表达式。实践证明,使用该搜索引擎,可以快速准确地搜索到用户所需的信息。  相似文献   

5.
垂直搜索引擎中过滤器的设计与实现   总被引:1,自引:0,他引:1  
从海量Web资源中高效、快捷地检索信息的常规的方法是搜索引擎和信息抽取等技术,而过滤器则起着重要的Web网页预处理作用。提出了基于DOM树结构的过滤器方法,讨论了垂直搜索引擎中页面预处理的方法、设计与实现,并给出了具体的实现算法。最后结合在石油领域垂直搜索引中的具体应用,总结了过滤器适应于当前网页的结构和设计的特点,验证了方法的正确性和适用性,大大提高了垂直搜索引擎的效率和准确率。  相似文献   

6.
提高搜索引擎的性能,给用户反馈一个高精度、低重复率的检索结果,就必须要克服搜索引擎对数据的重复搜集问题。对数据的重复搜集问题进行了研究和分析,并有针对性地提出了解决方案。  相似文献   

7.
论搜索引擎     
本文介绍在Internet上进行信息搜索的搜索引擎的概念、原理、现状、使用、发展趋势及评价标准,并提供了一些常用的优秀国内外搜索引擎供大家参考。  相似文献   

8.
专题搜索引擎中信息过滤的研究与实现   总被引:2,自引:5,他引:2  
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展.最后给出了系统的实施方案,并对将来的工作做了展望.  相似文献   

9.
国内综合性搜索引擎时新性的计算   总被引:3,自引:0,他引:3  
一个搜索引擎所索引Web页面的“新鲜性”已成为评价其系统性能的指标之一。该文利用北大天网的实际搜集和Cho所检测Web变化的实验数据,计算了国内综合性搜索引擎在定期全面搜集时的时新性。  相似文献   

10.
这几天在网上闲逛,偶然找到了几个有趣的JavaScript小程序,其中一个就是有关让图层跟随鼠标移动的小程序,突发奇想,何不在图层里加上一个搜索引擎,实现跟随功能,即,让别人在浏览你的网页时,搜索引擎始终自动移到他的屏幕上。于是动起手来,经过一些小小的改造,终于完成了,好东西不敢独享,还是  相似文献   

11.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

12.
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息.由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败.鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑.  相似文献   

13.
蔡建超  郭一平  王亮 《微机发展》2006,16(11):73-75
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。  相似文献   

14.
胡晟 《软件》2012,(7):145-147
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。  相似文献   

15.
周凤丽  林晓丽 《微机发展》2012,(1):140-142,160
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。  相似文献   

16.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

17.
针对目前图书馆的各种电子资源都需要在各自的平台上单独检索的问题,提出构建基于搜索引擎的一站式检索平台,实现在统一的检索界面上,一次检索就能获得所有电子资源的相关文献信息,使读者能在最短的时间内获得最深入、最准确、最全面的文献信息。  相似文献   

18.
如何从大量信息中获取有用的信息,是目前面临的挑战性问题,在寻找有用信息的迫切性需求下,搜索引擎逐渐成为人们在网上检索信息的重要工具。通过对语义搜索的研究和设计,证明语义搜索引擎的可行性与实用性。总的来说,我们已经初步完成了一个基于语义的搜索引擎的框架结构,该框架包括搜索、检索、搜集等功能和模块,已经覆盖了该课题的多数研究内容和目标。其中的有一些技术已经可以在电子商务等一些专用领域应用了。  相似文献   

19.
基于Web Services的个人搜索引擎   总被引:3,自引:0,他引:3  
随着Internet的出现,要从浩如烟海的网络信息中找出自己所想要的信息是非常困难的,Google是非常著名的搜索引擎,其搜索机制是面向大众的.其提供的Webservices功能利用标准化的Web协议在任何一种网络环境下可以使用这种服务,为定制个性化的搜索引擎提供了方便。文章探讨了Google搜索引擎提供的WebService及程序实现方式,并使用Delphi提供的WebServices组件与Google服务接口,实现了一个个性化的搜索引擎,实验表明其搜索结果与Google本身的搜索功能有了大的改进。  相似文献   

20.
分布式搜索引擎的设计与实现   总被引:5,自引:0,他引:5  
贺广宜  罗莉 《计算机应用》2003,23(5):83-85,88
在一个分布各地的网站群组成的大系统中,不设立中心数据库的情况下,各网站对等协调工作,实现数据库级共享与搜索是一个难题。文中阐述了用Web Service技术实现分布式搜索的基本原理,并对Web Service代理模式、异地数据存取、大结果集处理、查询数据本地化等关键技术进行了详细介绍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号