首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于PageRank与Bagging的主题爬虫研究   总被引:3,自引:0,他引:3  
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法.将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块.利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取.用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页.实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果.  相似文献   

2.
随着网络信息海量爆炸性增长,通用搜索引擎面临着索引规模、更新速度、个性化需求等多方面的挑战。面对这些挑战,适应特定主题和个性化搜索的主题爬虫应用产生。在这里它介绍了基于主题爬虫的个性化搜索引擎的体系结构、搜索策略、相关度等知识。详细的介绍了基于链接结构的搜索算法及改进策略。  相似文献   

3.
萧婧婕  陈志云 《计算机科学》2018,45(Z11):146-148, 166
为了解决主题爬虫在全局搜索中难以实现最优解的问题,提高主题爬虫的准确率和召回率,文中设计了一个结合灰狼算法的主题爬虫搜索策略。实验结果表明,与传统的广度优先搜索策略以及同样是群体智能算法的遗传算法相比,基于灰狼算法的主题爬虫的性能有了很大的提高,能爬取到更多的主题相关的网页。  相似文献   

4.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题  相似文献   

5.
葛玲  蒋宗礼 《计算机工程》2010,36(8):286-288
通过建立一个共现词库改进主题模型,以提高下载网页的主题相关度及质量,并且能描述其语境的上下文,揣测用户意图,调节检索结果排序。在此基础上设计并实现一个FDC主题爬虫系统,该系统采用改进的主题敏感FDC-PageRank算法来计算网页优先级。实验表明其效果良好。  相似文献   

6.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

7.
随着互联网技术的飞速发展,网页数量急剧增加,搜索引擎的地位已经不可取代,成为人们使用Internet的入口。网络蜘蛛作为搜索引擎的信息来源是搜索引擎必不可少的组成部分。介绍网络蜘蛛设计中的关键技术。另外,随着用户个性化需求越来越强以及网页数量的急剧增加导致通用搜索引擎无法满足特定用户的需求,专业搜索引擎得到快速的发展。同时对于主题爬虫的研究也有很大的突破和进展。主题爬虫有别于通用爬虫,通用爬虫注重爬取的完整性,而主题爬虫强调网页与特定主题的相关性。同时对主题爬虫的研究现状进行介绍和总结。  相似文献   

8.
主题爬虫是实现主题搜索引擎的关键部分。提出了利用朴素贝叶斯算法进行主题识别的方法,介绍了主题爬虫实现过程中所涉及到的关键部分,包括种子URL集合的生成、页面分析及特征提取、主题识别等。将基于朴素贝叶斯算法的主题爬虫,与基于链接分析的主题爬虫和基于主题词表的主题爬虫进行比较,实验表明基于朴素贝叶斯算法的主题爬虫准确性较好,论证了方法的可行性,为主题信息的采集奠定了良好的基础。  相似文献   

9.
主题爬虫是实现垂直搜索引擎的核心技术.介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫.这种新策略正好弥补了两个算法各自的不足.通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高.  相似文献   

10.
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.  相似文献   

11.
在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫.该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器.基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类.在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度.系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序.把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能.  相似文献   

12.
主题爬虫的目的在于尽可能准确地获取与特定主题相关的内容。针对主题爬虫主题覆盖率不足和主题相似度计算准确度偏低,提出一种动态主题的主题爬虫框架,对主题关键词进行两重扩展:用同主题的词扩展和词的语义扩展。利用主题爬虫自身主题相关资源收集的功能,不断对语料进行扩充,通过LDA训练得到主题文档来进行主题词库扩展更新。在此基础上,提出一种基于word2vec词向量表示的改进相似度计算模型,用于页面相似度计算和URL优先级排序。通过在真实新闻数据集上的实验表明,提出的爬虫在主题相关度的判断准确度和主题内容收获率上均有较好表现。  相似文献   

13.
通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.  相似文献   

14.
提出基于Tf-Idf和网页链接对传统的PageRank算法不足之处进行改进。该算法不仅较好地解决了PageRank主题漂移问题,而且在查准率和查全率方面也有较大的提高。通过实验证明,该算法可以获得优于传统PageRank算法的查询结果集。  相似文献   

15.
为了改善传统PageRank算法存在的不足,例如平分链接权重、主题漂移和忽略用户兴趣,提出一种基于分布式学习自动机和用户反馈的网页排序算法。利用页面内容的相似性、网页之间的超链接和用户遍历的路径,根据分布式学习自动机来确定网页间的超链接权重。考虑到用户反馈包含大量的价值信息,选择用户的转载、回复以及有效点击特征作为用户的行为特征,获得用户反馈因子。根据网页间的超链接权重和用户反馈因子计算每个网页的排名。仿真实验表明,与传统的PageRank算法和WPR算法相比,该算法在一定程度上提高了信息检索的精准度和用户满意度。  相似文献   

16.
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法.对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去.介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点.  相似文献   

17.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

18.
针对区间直觉模糊集(IVIFS)的聚类问题,提出了基于IVIFS的C均值聚类算法.算法首先应用IVIFS的欧氏距离,构造了聚类的目标函数;然后根据拉格朗日乘数法推导出聚类的迭代公式,得到IVIFS聚类算法;此外,还提出一种IVIFS聚类的有效性函数,并将此函数和聚类结合,给出可以确定最佳聚类类别数的聚类流程;最后通过实...  相似文献   

19.
基于模糊综合评判的文本自动分类算法   总被引:2,自引:0,他引:2  
文本分类在文献检索、信息过滤、数据组织、信息管理等领域中应用十分广泛。本文给出了一种基于模糊综合评判的文本自动分类算法,该算法以文本分词技术作为基础,以类间词频方差作为评判因素的选择依据,通过预定义类中关键词的词频均值高低构造评判矩阵,以最大隶属度作为评判原则。文中详细描述了算法的理论依据、评判因数的选择、评判矩阵的构造及分类算法。实验结果表明本文提出的分类算法具有相当的应用价值。  相似文献   

20.
基于扩张矩阵的模糊特征选择算法   总被引:1,自引:0,他引:1  
在模糊分类器系统中,通常要将模式的原始特征投影到模糊空间,在模糊空间上进行特征选择,并在此基础上构建模糊决策规则.本文在对原始特征模糊化的基础上提出了一种构造模糊扩张矩阵的方法,它结合了常规扩张矩阵的优点和模糊集的特性,然后设计了一种基于模糊扩张矩阵的求解当特征取值为隶属度时的最优模糊特征子集的启发式算法,并从理论上证明了其正确性,也通过现实世界的数据集验证了它的较高效率.同时,该算法对基于集理论的模糊集相似性度量公式具有一定的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号