首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于遗传算法的主题爬虫策略   总被引:3,自引:0,他引:3  
刘国靖  康丽  罗长寿 《计算机应用》2007,27(Z2):172-174
针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子.实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页.  相似文献   

2.
针对现有主题爬虫技术在获取“元信息”时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及“元信息”URL关键词集合;对集合中的关键词设置权限信息,设置集合的分类判断阈值;将URL使用特征向量表示,计算与关键词集合的距离,对URL进行分类;对算法性能进行了详细分析。实验结果表明,所提方法在进行“元信息”获取时,与传统主题爬虫技术相比能够大幅度提高效率,在相同时间内,“元信息”获取数量可增加96.21%,完全能够满足主动监测模型对网络爬虫的性能要求。  相似文献   

3.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

4.
基于主题语义URL的信息搜索方法研究   总被引:1,自引:0,他引:1  
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。  相似文献   

5.
通过分析Heritirx开源爬虫的组件结构,针对Heritrix开源爬虫项目存在的问题,项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类,并引入BKDRHash算法进行URL散列,实现了面向特定主题的网页信息搜索,达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析,并进行网页内容抓取,采用HTMLParser工具将抓取的网页数据源转换成特定的格式,可为面向主题的搜索信息系统以及数据挖掘提供数据源,为下一步研究工作做好准备。  相似文献   

6.
基于遗传算法的聚焦爬虫搜索策略   总被引:1,自引:0,他引:1       下载免费PDF全文
曾广朴  范会联 《计算机工程》2010,36(11):167-169
为了提高聚焦爬虫的搜索效率,提出一种结合内容评价和链接结构搜索策略的优点并利用小生境遗传算法进行全局寻优的搜索策略。改进遗传算子和小生境遗传算法,将待搜索的网页URL作为遗传个体,采用概率变迁规则和小生境淘汰运算引导搜索方向。实验结果证明,与聚焦爬虫的其他实现技术相比,该策略在抓取主题相关网页时具有更高的查准率和查全率。  相似文献   

7.
一种基于复合交叉的实数编码遗传算法   总被引:5,自引:0,他引:5  
提出了一种基于复合交叉的实数编码遗传算法。通过对父代染色体间的区域进行多次交叉操作,复合交叉操作保留了被搜索区域的信息。算法首先对父代染色体进行复合交叉操作,然后利用包含在新个体集合中的信息进行信息最大化选择,对每一代个体进行基于适应度的选择。集合中信息冗余的个体被从种群中删除,位于欠搜索区域中的个体被保留。由于算法能够始终保持种群的多样性,算法不仅能搜索到全局最优点,同时也能找到尽量多的局部极值点。利用算法对多极值函数进行了寻优,仿真结果表明了算法的有效性。  相似文献   

8.
重点分析了爬虫的策略设计以及网页主题的相关度算法研究等,分析了各个算法的实现方法以及优缺点等. 1 宽度遍历策略 宽度优先搜索[1](Breadth-First-Search)简称BFS,网络爬虫从初始URL集合中,按照访问的层次逐个遍历网页,当遍历完当前层的网页包含的所有URL链接完,然后才接着对下一层级的页面进行遍历,不断断的递归这个过程,直到完成爬取任务,或者到达遍历的停止条件等.因此,宽度遍历也称为按层遍历.  相似文献   

9.
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链接结构搜索策略优点的爬行策略引导下,以待爬行URL作为遗传个体,基于主题词集的向量空间模型评估个体适应度,引入新的URL实现交叉、变异操作,将具有相同URL前缀的链接按小生境处理。实践证明,该爬虫具有较好的性能。  相似文献   

10.
Spam网页主要通过链接作弊手段达到提高搜索排名而获利的目的,根据链接作弊的特征,引入链接相似度和作弊系数两个指标来判定网页作弊的可能性。借鉴BadRank算法思想,从Spam网页种子集合通过迭代计算链接相似度和作弊系数,并根据与种子集合的链接指向关系设置权重,将待判定的网页进行度量。最后选取Anti-Trust Rank等算法作对比实验,结果验证了本文算法在准确率和适应性方面优于对比算法。  相似文献   

11.
近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术——集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。  相似文献   

12.
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法: 即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。  相似文献   

13.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存...  相似文献   

14.
SEO技术在网站开发中的应用   总被引:1,自引:0,他引:1  
首先根据搜索引擎基本原理分析影响网页搜索排名的主要因素,然后就URL地址重写、排除重复内容、HTML优化3个主题,论述了网站开发时的SEO技术。  相似文献   

15.
互联网网页所形成的主题孤岛严重影响了搜索引擎系统的主题爬虫性能,通过人工增加大量的初始种子链接来发现新主题的方法无法保证主题网页的全面性.在分析传统基于内容分析、基于链接分析和基于语境图的主题爬行策略的基础上,提出了一种基于动态隧道技术的主题爬虫爬行策略.该策略结合页面主题相关度计算和URL链接相关度预测的方法确定主题孤岛之间的网页页面主题相关性,并构建层次化的主题判断模型来解决主题孤岛之间的弱链接问题.同时,该策略能有效防止主题爬虫因采集过多的主题无关页面而导致的主题漂移现象,从而可以实现在保持主题语义信息的爬行方向上的动态隧道控制.实验过程利用主题网页层次结构检测页面主题相关性并抽取"体育"主题关键词,然后以此对采集的主题网页进行索引查询测试.结果表明,基于动态隧道技术的爬行策略能够较好的解决主题孤岛问题,明显提升了"体育"主题搜索引擎的准确率和召回率.  相似文献   

16.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

17.
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。  相似文献   

18.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题  相似文献   

19.
Internet上的海量数据对人们有效、快速地使用这些资源和信息提出了挑战。网页信息采集更新的方法在很大程度上决定了网页更新的效果。为提高网页信息更新的效果,本文从抓取入口页面开始,采集网页后进行去重操作,并将网页分块提取出超链接URL信息。在此基础上,应用网页更新策略提高网页更新效果。最后,应用基于URL和网页类型的采集更新检测方法来实现网页信息采集。  相似文献   

20.
基于遗传算法的定题信息搜索策略   总被引:4,自引:0,他引:4  
定题检索将信息检索限定在特定主题领域,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略,提高链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围。同时,借助超链Metadata的提示信息预测链接页面的主题相关度,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号