首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。  相似文献   

2.
在分析传统的网络蜘蛛搜索特点的基础上,充分利用Web资源分布的特点,提出了基于在线增量自适应算法的搜索策略.该算法一方面避免了过早陷入Web搜索最优子空间的陷阱;另一方面不断对爬虫数据库更新,以提高其对链接主题的判断能力.通过对四所著名大学计算机网站做的搜索实验,表明新的算法可以有效地提高网络蜘蛛的搜索性能.  相似文献   

3.
面向主题的Web信息采集需判断提取的URL链接主题相关性。基于主题链接上下文提取,主题型语义块采用提取链接周围一定长度的文本,目录型和图片型语义块利用DOM树层次结构,对链接数据进行URL相关性判定;利用知网基于语义相似度的链接判定,给出一种综合内容和链接结构分析的URL主题相关性判定NPR算法,比较PageRank算法能提供更精确的主题页面。其成果对我国信息机构进行学科网络信息资源的深度建设有实用价值。  相似文献   

4.
基于Boltzmann行动选择策略的网络蜘蛛搜索算法   总被引:4,自引:0,他引:4  
在分析传统网络蜘蛛搜索机制特点的基础上,将Boltzmann行动选择策略引入网络蜘蛛的链接选择机制,提出了一种基于Boltzmann行动选择策略的启发式网络蜘蛛搜索算法.针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新的算法可以有效提高搜索效率.  相似文献   

5.
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。  相似文献   

6.
搜索引擎中网络蜘蛛的研究与实现   总被引:1,自引:0,他引:1  
网络蜘蛛程序是搜索引擎工作的基础和关键,实现了抓取网络资源的网络蜘蛛程序,通过入口网址下载网络资源,并对其分析,获得包含的其他链接,利用这些链接向整个网络扩散,下载其他资源。测试了蜘蛛程序抓取网页的能力,并对多线程实现的利弊进行讨论,总结了常用的算法搜索策略,提出了后续的研究方向。  相似文献   

7.
基于主题语义URL的信息搜索方法研究   总被引:1,自引:0,他引:1  
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。  相似文献   

8.
一种基于非贪婪策略的网络蜘蛛搜索算法   总被引:4,自引:0,他引:4  
在分析传统网络蜘蛛搜索策略缺点的基础上,提出了一种非贪婪的链接选择策略,进而提出了一种基于非贪婪策略的启发式搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新算法可以有效提高搜索效率。  相似文献   

9.
主题网络蜘蛛的搜索策略是主题搜索引擎的核心部分,是近年来主题搜索引擎研究中的热点问题之一。深入研究了主题网络蜘蛛的关键技术,阐述了多线程网络蜘蛛的实现过程,并对传统的VSM算法和PageRank算法进行了改进,提高了主题网络蜘蛛采集信息的有效性和准确性。  相似文献   

10.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量.  相似文献   

11.
因特网的迅速发展对传统的爬行器和搜索引擎提出了巨大的挑战。各种针对特定领域、特定人群的搜索引擎应运而生。Web主题信息搜索系统(网络蜘蛛)是主题搜索引擎的最主要的部分,它的任务是将搜集到的符合要求的Web页面返回给用户或保存在索引库中。Web 上的信息资源如此广泛,如何全面而高效地搜集到感兴趣的内容是网络蜘蛛的研究重点。提出了基于网页分块技术的主题爬行,实验结果表明,相对于其它的爬行算法,提出的算法具有较高的效率、爬准率、爬全率及穿越隧道的能力。  相似文献   

12.
网络搜索是目前从因特网上获取信息的主要手段,而网络蜘蛛又是大多数网络搜索工具获取网络信息的主要方法,主题搜索策略是专业搜索引擎的核心技术.通过研究网络蜘蛛的工作原理,分析了网络蜘蛛的搜索策略和搜索优化措施,设计出一种将限制搜索深度.多线程技术和正则表达式匹配方法结合一起的网络蜘蛛,实验结果表明该方法能够快速而准确地搜索所需的相关主题信息.  相似文献   

13.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

14.
在计算广告学中,为用户查询返回相关的广告一直是研究的热点。然而用户的查询一般比较简短,广告的表示也局限在简短的创意和一些竞价词上,返回符合用户查询意图的广告十分困难。为了解决这个问题,该文提出利用多特征融合的方法进行广告查询扩展,先将查询输入到搜索引擎中,获得Top-k网页查询结果,将它们作为获取扩展词的外部资源,由于采用一般的特征选取方法获取扩展词采用的特征比较单一,缺乏语义信息,容易产生主题漂移现象,该文通过计算扩展词和查询词在网页查询结果中的共现度,并融合传统的TF特征和词性信息,获得与原始查询语义相关的扩展词。在真实的广告语料上的实验结果显示,基于多特征融合的选择广告扩展词的方法能有效地提高返回广告的相关性。  相似文献   

15.
计算机网络技术的飞速发展,对于搜索引擎技术也提出了更高的要求.文章主要以垂直搜索引擎的主题网页抓取策略为研究内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应用方法不仪分析了网页内容,还考虑网页上下文链接距离结构,在一定程度上提高了主题页面抓取的精度.  相似文献   

16.
深度学习在图像、语音、文本等多种模态的数据任务上取得了优异的效果然而,针对特定任务,人工设计网络需要花费大量的时间,并且需要设计者具有一定水平的专业知识和设计经验.面对如今日趋复杂的网络架构,仅依靠人工进行设计变得越来越复杂基于此,借助算法自动地对神经网络进行架构的搜索成为了研究热点神经架构搜索的方法涉及3个方面:搜索...  相似文献   

17.
克隆条件的设定是基于Web搜索中Mobile Agent(MA)克隆技术的核心关键问题。分析了现有MA克隆条件判断技术应用于搜索引擎的不足,在此基础上,根据QoS的原理,针对Web服务器端的负载和MA搜索代理间的平衡问题,在保证服务器的其他浏览请求优先的情况下,使用统计学方法提出了一种适用于基于MA的搜索引擎的克隆条件判断算法,克服了原有克隆判断参数难以获得的缺点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号