首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 206 毫秒
1.
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,网络爬虫的爬行效率对搜索引擎至关重要。基于Websphinx对网络爬虫进行了相关介绍,概述了Websphinx的结构框架、搜索方式及提出了一些看法。  相似文献   

2.
主题网络爬虫研究综述   总被引:3,自引:0,他引:3       下载免费PDF全文
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。关键词:  相似文献   

3.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

4.
主题网络爬虫的搜索策略是基于领域的搜索引擎的核心技术,爬虫搜索算法的性能直接关系着搜索引擎的性能。经过研究发现“最好优先算法”在重多搜索算法中表现的性能最优,但它本身也存在着收敛速度过快的缺陷,导致搜索引擎的“查全率”不高。针对这种情况,对“最好优先算法”做了调整与改进,并用Java技术给予了实现。  相似文献   

5.
Nutch作为一个优秀的开源搜索引擎,其内核代码大量采用了MapReduce的编程模式,被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品.作为优秀的搜索引擎,其重要的前提是如何尽可能多地抓取到网页数据来建立索引.介绍了Nutch基于Hadoop下的分布式网络爬虫工作机制,指出其不足之处,并提出了改进方案,...  相似文献   

6.
7.
基于Web的网络爬虫的设计与实现   总被引:2,自引:0,他引:2  
无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块--网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主要的技术难点.该系统经实际运行,效果良好,最后给出了有待进一步改进的地方.  相似文献   

8.
随着互联网技术的发展,数据资源逐渐成为人们关注的焦点,通过网络爬虫获取数据的技术受到广泛的研究。同时,由于人们获取数据的需求日益增长,爬虫的使用者往往会使用反爬虫的对抗技术来获取自己所需的数据。围绕爬虫技术与爬虫的对抗技术进行研究,结合实践,讨论如何采取相应的措施对抗爬虫,实现对网站数据资源的保护。  相似文献   

9.
网络爬虫采集互联网信息并提供搜索服务。该设计基于Lucene.NET平台开发网络爬虫,可以对特定的网页进行抓取和分析,提取网页中有用信息,并对抓取的数据进行索引,存储到服务器硬盘,同时过滤掉无用信息。系统界面友好,准确高效。  相似文献   

10.
目前传统爬虫无法爬取Ajax动态网站,为解决该问题,该文设计了一个支持Ajax的网络爬虫,提出了AjaxCrawler的体系结构,实现了浏览器、模拟器、控制器和自动机,并通过实验,进行了爬取结果的对比,证明了其效果。  相似文献   

11.
随着网络信息的指数增长和用户对检索质量要求的日益提高,传统搜索引擎的查全率和准确率都开始下降,已无法满足用户信息检索的需求。该文从搜索引擎技术的概念入手,分析了元搜索引擎和多智能体的基本原理,并利用多Agent系统自治智能和分布协同的特性.提出了基于多智能体的元搜索引擎。  相似文献   

12.
随着网络信息的指数增长和用户对检索质量要求的日益提高,传统搜索引擎的查全率和准确率都开始下降,已无法满足用户信息检索的需求。该文从搜索引擎技术的概念入手,分析了元搜索引擎和多智能体的基本原理,并利用多Agent系统自治智能和分布协同的特性,提出了基于多智能体的元搜索引擎。  相似文献   

13.
传统的主题爬虫在计算主题相似度时,通常采用基于词频、向量空间模型以及语义相似度的方法,给相似度计算准确率的提升带来一定瓶颈。因此,提出融合LDA的卷积神经网络主题爬虫,将主题判断模块视为文本分类问题,利用深度神经网络提升主题爬虫的性能。在卷积层之后拼接LDA提取的主题特征,弥补传统卷积神经网络的主题信息缺失。实验结果表明,该方法可以有效提升主题判断模块的平均准确率,在真实爬取环境中相比其他方法更具优势。  相似文献   

14.
在信息时代,面对日益庞大的信息资源,需要通过一种科学手段来获取自己需要的准确及时的信息,这种科学的手段就是检索,信息检索。信息检索就是只从任何文献集合中查出所需信息的活动、过程和方法。通过论述信息检索的工作原理和其在网络环境下的作用,对比分析了基于网络的信息检索几种类型的特点,对高速而有效的信息检索系统的核心技术搜索引擎技术进行了分析,指出随之带来的亟待解决的快速有效获取信息的问题和搜索引擎技术符合时代要求的发展方向。  相似文献   

15.
本文作者结合学校实际情况详细分析了推广网站优化的必要性,介绍了SEO搜索引擎优化中用到的主要技术,梳理了网站优化的主要流程,并对学校招生网站中存在的问题进行了细致分析,为该网站设计了一套实用的优化方案,最后就网站优化效果分析方面的内容进行了阐述。  相似文献   

16.
为提高校园网搜索引擎的查准率,提出一种新的校园网搜索引擎排序方法。该方法基于用户查询主题、用户浏览时间和页面点击等用户行为特征,计算新的页面相关度得分,改进搜索引擎的排序结果,为用户提供更准确的查询服务。实验结果表明,在不降低查全率的情况下,应用该排序方法的查准率有明显提高。  相似文献   

17.
基于对等网络的智能信息搜索模型   总被引:2,自引:0,他引:2       下载免费PDF全文
对等网络(P2P)是实现下一代互联网的重要组成部分。该文在分析P2P网络结构模式和现有P2P网络优缺点的基础上,提出了一种融入了多种网络模型的基于混合式对等网络和智能代理技术相结合的搜索模型,描述了该模型智能代理和查询信息的过程。  相似文献   

18.
近年来,随着自然语言处理技术的飞速发展,传统的客服越来越不能满足当前的业务需求,基于自然语言技术的智能客服系统应运而生并被广泛应用在学习、生活、工作等各个领域中.本系统使用HTML和JavaScript进行前端页面的实现,采用Django进行后端的搭建,并使用MySQL进行数据的管理;使用ESIM模型进行语义匹配,该模...  相似文献   

19.
结合当前网络管理技术发展前沿,提出基于软件定义的试验任务网络智能化管理框架,将传统网络管理与SDN(Software-Defined Network)技术相结合,为试验任务流的QoS(Quality of Server)定制提供服务,运用深度强化学习算法以直接优化策略的总奖赏期望为目标,在QoS定制服务的策略空间搜索最优策略,从而实现试验任务流端到端的动态控制与智能化管理,确保网络带宽资源的灵活调度和合理分配,为后续即将建成和投入使用的与试验任务强相关的信息系统提供良好的网络运行环境。为试验任务网管理向一体化、智能化方向演进奠定技术基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号