首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
基于遗传算法的定题信息搜索策略   总被引:4,自引:0,他引:4  
定题检索将信息检索限定在特定主题领域,提供主题领域内信息的检索服务。它是新一代搜索引擎的发展方向之一。定题检索的关键技术是主题相关信息的搜索。本文提出了基于遗传算法的定题信息搜索策略,提高链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围。同时,借助超链Metadata的提示信息预测链接页面的主题相关度,加快了搜索速度。对比搜索试验证明了算法具有较好的性能。  相似文献   

2.
基于网页内容和链接价值的相关度方法的实现   总被引:2,自引:0,他引:2  
专业搜索引擎提供特定主题的信息检索服务,是新一代搜索引擎的发展方向之一,而网页主题相关度分析是专业搜索引擎的核心技术,它指导着robot进行有价值的搜索,专门搜索与主题相关的页面;提出_种综合的网页主题相关度分析方法,方法同时对网页内容价值和链接价值进行了考察,从而保证了robot搜索的网页与主题有着较高的相关度;在网页内容价值评价时,对传统的方法进行了改进,新的方法能高好的实现.该方法也用于服装行业的搜索引擎,效果明显.  相似文献   

3.
主题爬虫能够高效的获取特定主题的网页,是垂直搜索引擎核心技术之一。提出了一个基于领域本体的主题爬虫框架,借助基于领域本体的相关度计算方法预测链接主题的相关度和网页内容与主题的相关度,决定爬虫的下一步爬行路径,以便于尽可能缩小搜索路径。对比实验表明,提出的方法能够有效提高主题爬虫网页抓取的准确率和查全率。  相似文献   

4.
一种基于HITS的主题敏感爬行方法   总被引:2,自引:0,他引:2  
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

5.
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。  相似文献   

6.
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。  相似文献   

7.
基于贝叶斯分类器的主题爬虫研究*   总被引:4,自引:0,他引:4  
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。  相似文献   

8.
定题搜索引擎是新一代搜索引擎的发展方向之一,而定题爬虫是定题搜索引擎的构建关键.本文提出了一个定题爬虫系统的设计框架,详细介绍了其实现的关键技术.针对传统主题过滤算法Hopfield网页分析算法的不足,提出了自主学习的网页分析算法,提高链接于不相关页面后的相关页面被搜索的机会,同时提出了简单高效的镜像页面检测算法,最后, 用原型系统FC测试表明系统有较好的性能.  相似文献   

9.
基于遗传算法的主题爬行技术研究   总被引:3,自引:0,他引:3  
针对目前主题搜索策略的不足,提出了基于遗传箅法的主题爬行策略,提高了链接于内容相似度不高的网页之后的页面被搜索的机会,扩大了相关网页的搜索范围.同时,在网页相关度分析方面,引入了基于本体语义的主题过滤策略.实验结果表明,基于遗传算法的主题爬虫抓取网页中的主题相关网页数量多,在合理选择种子集合时,能够抓取大量的主题相关度高的网页.  相似文献   

10.
大量的网页资源和网页的动态特性突出了基于网页信息搜索系统的不断支持和升级的要求.搜索引擎系统中的爬行虫就是为搜集网页中的信息而设计的.爬行虫通过网页中的超链接方便了某个特殊网页快照的自动下载.讨论的根本是与爬行虫的内部架构发展相关.论文首先分析Web信息采集系统模型和爬行虫的搜索策略,给出一个适合中小型网站网页具体信息获取的爬行虫算法,并使用C++ Builder工具实现程序.本文也给出了一些与主题搜索相关的程序说明.  相似文献   

11.
面向主题爬取的多粒度URLs优先级计算方法   总被引:1,自引:0,他引:1  
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上, 提出基于上述方法的主题爬取算法。实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法。  相似文献   

12.
基于遗传算法的专业元搜索引擎   总被引:1,自引:0,他引:1  
赵大明  鱼滨 《计算机工程》2009,35(21):192-194
元搜索引擎返回的查询结果来自独立搜索引擎,要评价此类结果的专业相关性,必须挖掘其位置信息以外的其他信息。研究并实现面向培训领域的元搜索引擎,在充分挖掘网页文本信息的基础上,提取专业网页样本特征,结合遗传算法给出网页专业相关度算法。实验结果表明,该引擎具有较高的专业信息筛选和排序能力。  相似文献   

13.
主题爬虫是实现主题搜索引擎的关键部分。提出了利用朴素贝叶斯算法进行主题识别的方法,介绍了主题爬虫实现过程中所涉及到的关键部分,包括种子URL集合的生成、页面分析及特征提取、主题识别等。将基于朴素贝叶斯算法的主题爬虫,与基于链接分析的主题爬虫和基于主题词表的主题爬虫进行比较,实验表明基于朴素贝叶斯算法的主题爬虫准确性较好,论证了方法的可行性,为主题信息的采集奠定了良好的基础。  相似文献   

14.
随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。  相似文献   

15.
针对传统主题爬虫的不足, 提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合, 然后结合主题描述文档构建主题向量来描述主题; 下载网页后引入网页分块来穿越“灰色隧道”; 采用文本内容和链接结构相结合的策略计算候选链接优先级, 并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明, 利用该方法实现的主题爬虫查准率达66%、信息量总和达53%, 在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。  相似文献   

16.
Deep Web数据源聚焦爬虫   总被引:2,自引:0,他引:2       下载免费PDF全文
Internet上有大量页面是由后台数据库动态产生的,这部分页面不能通过传统的搜索引擎访问,被称为Deep Web。数据源发现是大规模Deep Web数据源集成的关键步骤。该文提出一种针对Deep Web数据源的聚焦爬行算法。在评价链接重要性时,综合考虑了页面与主题的相关性和链接相关信息。实验证明该方法是有效的。  相似文献   

17.
社交网络数据采集是开展社交网络分析的基础.针对当前面向主题的社交网络数据采集技术采集数据少、召回率低的问题,本文提出基于内置搜索引擎和基于通用搜索引擎相结合的主题消息采集方法,并将LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型应用于主题关键词的迭代扩展,并提出了一种基于用户生存值的高效扩展策略.实验结果表明本文提出的方法可以使面向主题的社交网络数据采集系统在保证一定准确率的情况下进一步获取主题相关数据.  相似文献   

18.
为提高校园网搜索引擎的查准率,提出一种新的校园网搜索引擎排序方法。该方法基于用户查询主题、用户浏览时间和页面点击等用户行为特征,计算新的页面相关度得分,改进搜索引擎的排序结果,为用户提供更准确的查询服务。实验结果表明,在不降低查全率的情况下,应用该排序方法的查准率有明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号