首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检索路径,让用户获得自己需要的信息.由蜘蛛程序实现的网页抓取模块是搜索引擎系统提供服务的基础,从资源的角度决定了整个系统的成败.鉴于此,介绍搜索引擎系统的基本工作原理,分析网页抓取模块的工作流程,研究开源网络蜘蛛Heritrix的几个关键组件,在充分了解Heritrix构架的基础上扩展Extractor组件,成功实现个性化的抓取逻辑.  相似文献   

2.
搜索引擎的设计研究   总被引:3,自引:2,他引:3  
搜索引擎是Internet信息服务的主体,搜索引擎的设计是各网站建设的重要部分。介绍了搜索引擎的分类和各类搜索引擎的工作过程。在此基础上,指出了蜘蛛程序是由网页下载和网页内容分析及信息提取两部分组成,并结合用C++Builder作为开发工具给出了这两部分的源代码示例。最后介绍了蜘蛛程序设计要注意的问题。  相似文献   

3.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

4.
骆庆 《福建电脑》2006,(12):91-92
本文简要地介绍了搜索引擎中的关键技术之一--网络蜘蛛,重点阐述了网络蜘蛛的工作原理,以及网络蜘蛛需要改进的方面。  相似文献   

5.
搜索引擎是Internet信息服务的主体,搜索引擎的设计是各网站建设的重要部分。介绍了搜索引擎的分类和各类搜索引擎的工作过程。在此基础上,指出了蜘蛛程序是由网页下载和网页内容分析及信息提取两部分组成,并结合用C Builder作为开发工具给出了这两部分的源代码示例。最后介绍了蜘蛛程序设计要注意的问题。  相似文献   

6.
对于一些专业网站,站内搜索非常重要。本文研究了基于Lucene技术的Web站内搜索引擎的基本实现流程,详细分析了Lucene框架、网络蜘蛛、中文分词等关键技术。并对相关的技术进行了对比。进而说明了运用Lucene进行站内搜索开发的方法。  相似文献   

7.
对于一些专业网站,站内搜索非常重要。本文研究了基于Lucene技术的Web站内搜索引擎的基本实现流程,详细分析了Lucene框架、网络蜘蛛、中文分词等关键技术。并对相关的技术进行了对比。进而说明了运用Lucene进行站内搜索开发的方法。  相似文献   

8.
智能门户搜索引擎技术   总被引:2,自引:0,他引:2  
随着Web息量迅猛增长.传统搜索引擎所查询到的结果由于检索的内容过多,从而造成用户检索到的信息准确度不高,基于智能门户搜索引擎技术的研究已成为搜索引擎发展的新主题。该文详细介绍了智能门户搜索引擎技术,并在此基础上设计了一个智能门户搜索引擎的系统模型(Domain-based Seal-ch Engine,DBSE),该模型采用了多Agent技术以帮助用户快速有效地挖掘有用信息。  相似文献   

9.
垂直搜索引擎作为一种新型的搜索引擎服务模式,它的出现彻底解决了通用搜索引擎中一直存在的信息量大、查询不准确、深度不够等一系列问题。该文通过对Heritrix体系结构的深入分析,详细阐述了Heritrix在垂直搜索引擎中实现数据搜集的整个过程。  相似文献   

10.
张君  李保秀 《福建电脑》2008,24(4):141-142
介绍了垂直搜索引擎的原理及设计,重点描述了网页抓取模块(网络蜘蛛)的功能,及其最新研究成果,具有较高的实用性。  相似文献   

11.
蔡建超  郭一平  王亮 《微机发展》2006,16(11):73-75
在庞大的网络信息资源利用中,搜索引擎成为人们发现资源的有力工具。但是如果用常用的搜索引擎去搜索专门的门户网站,或者特定范围的网页,则显得力不从心。比如搜索一个学校内的网页,这些搜索引擎就很难进行全面高效的搜索。基于此,利用适应.Net环境的Lucene.Net作为基础,设计了自己的校园网搜索引擎,在特定范围的搜索表现出了自己独特的优势。  相似文献   

12.
周凤丽  林晓丽 《微机发展》2012,(1):140-142,160
互联网的快速发展也使搜索引擎不断的发展着,而搜索引擎逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。文章研究和分析了搜索引擎工具Lucene的原理、模型和索引器,设计了一个搜索引擎系统。该系统采用了非递归的方式负责Web站点的网页爬取以及爬取过程中URL链接的存储、处理等,并通过多线程技术管理多个抓取线程,实现了并发抓取网页,提高了系统的运行效率。最后采用JSP技术设计了一个简易的新闻搜索引擎客户端,系统可以稳定运行,基本符合搜索引擎原理的探索,具有一定的现实意义。  相似文献   

13.
汲业  陈燕  杨健  慕蓉 《计算机工程》2010,36(24):24-26
根据生活服务领域网页信息的特点,提出一种面向生活服务领域的垂直搜索引擎模型,给出该模型在信息采集、信息抽取、索引建立和信息检索4个功能模块的具体算法及实现方式。实际应用表明,该模型搜索效果良好,提供HTML和WML 2种方式的用户界面,已经成功覆盖全国近40个城市的餐饮、娱乐和黄页信息。  相似文献   

14.
基于Lucene的搜索引擎设计与实现   总被引:14,自引:0,他引:14  
当今搜索引擎已经成为人们在网上搜索信息的重要工具。通用的搜索引擎虽然功能强大,但对具有很多子网站的企业门户网站进行搜索时响应速度慢,索引范围不全。Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎。文中描述了利用基于Java的全文检索工具包Lucene开发定制的中文搜索引擎方法,并且将该定制的搜索引擎与Google的站内搜索进行试验比较,发现在对具有很多子网站的企业门户网站进行搜索时有优于Google的性能。  相似文献   

15.
企业专用搜索引擎的搜索策略   总被引:3,自引:2,他引:1  
分析了现有的通用搜索引擎技术,并指出了其局限性。针对企业用户的需求,提出构建面向企业用户的专用搜索引擎的设计思想。该设计采用人工智能启发式搜索的思想,在企业用户设定的种子站点集和关键词集的基础上,根据网页和链接的评价值进行有针对性的搜索,提高了专用搜索引擎的效率,并为个性化的服务提供了基础。  相似文献   

16.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

17.
网络信息资源的爆炸式增长使得人们获得有用信息日益困难,随着垂直网站的出现和发展,专业化的垂直搜索引擎成为今后搜索引擎发展的主流。该文简要介绍了垂直搜索引擎,并重点对其抓取系统所应用的网络蜘蛛技术做了详细分析,最后讨论了垂直搜索引擎的发展方向。  相似文献   

18.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

19.
搜索引擎的设计剖析   总被引:6,自引:0,他引:6       下载免费PDF全文
本文介绍了搜索引擎的四个组成部分:搜索器、索引器、检索器和用户接口,并分析其工作原理,给出搜索引擎中包含的关键技术算法,分词技术、多路归并算法和大文件处理技术;最后结合当前最新的几种搜索引擎在多语言处理,专业化和有效性等方面的技术改进目标。  相似文献   

20.
如何从大量信息中获取有用的信息,是目前面临的挑战性问题,在寻找有用信息的迫切性需求下,搜索引擎逐渐成为人们在网上检索信息的重要工具。通过对语义搜索的研究和设计,证明语义搜索引擎的可行性与实用性。总的来说,我们已经初步完成了一个基于语义的搜索引擎的框架结构,该框架包括搜索、检索、搜集等功能和模块,已经覆盖了该课题的多数研究内容和目标。其中的有一些技术已经可以在电子商务等一些专用领域应用了。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号