首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

2.
通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.  相似文献   

3.
提出基于Tf-Idf和网页链接对传统的PageRank算法不足之处进行改进。该算法不仅较好地解决了PageRank主题漂移问题,而且在查准率和查全率方面也有较大的提高。通过实验证明,该算法可以获得优于传统PageRank算法的查询结果集。  相似文献   

4.
针对PageRank算法存在主题漂移以及偏重旧网页的问题,结合锚文本相似度和时间反馈因子提出了一种PageRank改进算法STPR,并对STPR算法进行实验分析。先比较了传统PageRank算法与加入锚文本相似度的PageR-ank算法,结果表明加入锚文本相似度的PageRank算法有利于减少主题漂移现象的发生;其次比较了加入锚文本相似度的PageRank算法与STPR算法,结果表明STPR算法不但减少了主题漂移现象,而且还弥补了新网页的PageRank值。  相似文献   

5.
基于锚文本相似度的PageRank改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
王钟斐  王彪 《计算机工程》2010,36(24):258-260
分析搜索引擎Google的PageRank算法,给出其存在的3个问题及针对这3个问题提出的改进。结合锚文本相似度提出一种改进的PageRank算法,利用Nutch对传统PageRank算法和改进后的PageRank算法进行实验分析与比较。实验结果表明,改进的PageRank算法提高了搜索结果的查准率,有利于减少主题漂移现象。  相似文献   

6.
语义相似的PageRank改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。  相似文献   

7.
研究了现有的基于链接结构的PageRank算法。结合网页链接分析和网页内容相关性分析提出了一种改进的PageRank算法,从分析网页内容相关性的角度解决相关性需求,从网页链接分析的角度解决权威性需求,并且实验证明,改进的PageRank算法优于传统的PageRank算法的排序结果。  相似文献   

8.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性.但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象.在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法.该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈.实验表明,所提出的算法能较好地改进搜索结果的精确度.  相似文献   

9.
改进的非平均传递权值PageRank算法   总被引:1,自引:0,他引:1  
为了有效提高搜索引擎对搜索结果排序的精确性,通过对传统PageRank算法分析,针对父页面平均传递页面权值给它所链接子页面及只考虑其直接链接页面的不足,提出基于深2度页面链接与内容和主题相关性分析的一种父页面非平均传递权值的PageRank算法.该算法有效地解决了搜索引擎对排序结果的权威性要求和相关性要求,使搜索结果排序更符合不同网页浏览者的需求,同时也为进一步扩展PageRank算法提供了新的空间.实验结果表明,改进后的算法可以获得优于传统算法搜索精确度.  相似文献   

10.
一种抵抗链接作弊的PageRank改进算法   总被引:3,自引:0,他引:3  
大量的基于链接的搜索引擎作弊方法对传统PageRank算法造成了巨大的影响,例如,链接农场、交换链接、黄金链、财富链等使得网页的PageRank值失去了公正性和权威性。该文在分析多种作弊方法对传统PageRank算法所造成的不利影响的基础上,提出了一种可以抵抗链接作弊的三阶段PageRank算法-TSPageRank算法,该文对TSPageRank算法的原理进行了详细分析,并通过实验证明TSPageRank算法比传统的PageRank算法在效果上提高了59.4%,能够有效地提升重要网页的PageRank值,并降低作弊网页的PageRank值。  相似文献   

11.
王冲  曹姗姗 《计算机应用》2014,34(12):3502-3506
针对传统PageRank算法存在主题漂移、忽略用户兴趣及偏向旧网页的问题,提出一种基于用户反馈与主题关联度的网页排序改进算法。该算法为了更好满足用户的检索需求,利用用户对链接的点击量、链接结构及网页浏览时间来构成用户反馈因子,同时结合网页内容的主题关联度因子,共同对网页PR值进行适当修正与合理分配。为了改善网页排序的效果,算法通过添加时间相关因子,对新网页作出一定补偿,使得新网页一定程度上浮,旧网页下沉。实验结果表明,所提算法在相同实验环境下,相对于传统PageRank算法,提升了用户搜索满意度平均值约2.1%,达到了优化网页排序效果的预期研究目标。  相似文献   

12.
PageRank算法研究   总被引:17,自引:0,他引:17  
黄德才  戚华春 《计算机工程》2006,32(4):145-146,162
深入剖析了著名搜索引擎Google的关键技术PageRank算法,介绍分析了该算法的当前发展现状。并针对PageRank算法容易出现主题漂移现象,利用提出的二阶相似度改进算法。实验表明,改进的算法有利于减少主题漂移现象,提高用户对检索结果的满意度。  相似文献   

13.
dPageRank--一种改进的分布式PageRank算法   总被引:3,自引:0,他引:3  
陈再良  凌力  周强 《计算机应用》2006,26(1):21-0024
回顾了传统的PageRank计算方式,分析了等级泄漏和悬挂页面问题的解决方法。介绍了分布式PageRank的计算原理和评价原则,在分析两种现有分布式PageRank算法的基础上,提出了一种改进的分布式PageRank算法,通过实验对该算法的性能进行分析评价。  相似文献   

14.
融合VSM技术的PageRank算法研究与应用   总被引:1,自引:0,他引:1  
李卫东  陆玲 《计算机与现代化》2011,(7):96-98,101,104
为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数进行融合计算,产生新的PageRank值。经过对比实验证明,改进后的PageRank算法减少了无关网页的数量,为搜索引擎提供了更好的排序结果。  相似文献   

15.
Topic-sensitive PageRank: a context-sensitive ranking algorithm for Web search   总被引:14,自引:0,他引:14  
The original PageRank algorithm for improving the ranking of search-query results computes a single vector, using the link structure of the Web, to capture the relative "importance" of Web pages, independent of any particular search query. To yield more accurate search results, we propose computing a set of PageRank vectors, biased using a set of representative topics, to capture more accurately the notion of importance with respect to a particular topic. For ordinary keyword search queries, we compute the topic-sensitive PageRank scores for pages satisfying the query using the topic of the query keywords. For searches done in context (e.g., when the search query is performed by highlighting words in a Web page), we compute the topic-sensitive PageRank scores using the topic of the context in which the query appeared. By using linear combinations of these (precomputed) biased PageRank vectors to generate context-specific importance scores for pages at query time, we show that we can generate more accurate rankings than with a single, generic PageRank vector. We describe techniques for efficiently implementing a large-scale search system based on the topic-sensitive PageRank scheme.  相似文献   

16.
基于主题特征和时间因子的改进PageRank算法   总被引:2,自引:0,他引:2  
经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同.针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighmd topic PageRank).该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动.仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果.  相似文献   

17.

摘  要:针对PageRank算法完全依据链接结构排序,未考虑网页内容分析,造成平均分配PR值、主题漂移、偏重旧网页的现象,且已有改进算法存在单一性优化等问题,提出一种多特征因子融合的PageRank算法。该算法为使搜索结果更接近用户查询需求,同时兼顾搜索内容的相关度和查准率,通过添加链入链出权重因子、用户反馈因子、主题相关因子和时间因子,共同改善PageRank算法存在的不足。实验结果表明,所提算法在内容相关性和查准率方面,较其他网页排序算法有明显提高,达到优化PageRank算法的目的。  相似文献   

18.
随着Web技术的发展,微博已经成为最受欢迎的社交平台之一了。在中国,微博用户规模已经达到了2.42亿。微博用户影响力计算对社会信息在微博里面有效传播,正确传播,健康传播有着非常重要的意义。本文以新浪微博数据为实验的对象,通过改进传统的PageRank模型,提出了的新型用户影响力排名算法---MBUI-Rank(Micro-Blog User Influence Rank)算法。在考虑传统PageRank方法的用户链接关系的同时,MBUI-Rank算法还考虑到微博用户自身行为活动,构建用户对微博的影响的动态挖掘模型。实验结果表明,MBUI-Rank算法与传统的PageRank算法相比,可以更加真实有效地反映微博用户的实际影响力。  相似文献   

19.
In social network,original publisher and important nodes in the diffusion process can be traced by analyzing the spreading network of a hot topic.The participated users and spreading network structure of a hot topic build an information tracing model,which mines the source and important diffusion nodes.Firstly,it analyzed the development trend of a hot topic and extracts the users involved.Secondly,it established a user network according to the following relationship of the users involved.Thirdly,the contribution rate of users on the development of the hot topic was initialized,and the PageRank algorithm was used to construct the information tracing model.Finally,the Top k users were selected as the information publisher and important users of the hot topic according to the contribution rate.Experimental results showed that our model can effectively discover the hot topic of the publisher and important users.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号