首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
语义相似的PageRank改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。  相似文献   

2.
《计算机工程》2017,(5):179-184
针对传统PageRank算法存在主题漂移、网页权值均分等问题,提出一种改进的PageRank算法。为提高用户查询效率和搜索质量,结合时间反馈因子对用户转发、用户评论和微博提及行为进行综合分析,采用统计分析方法对用户行为在微博用户影响力排序中的贡献进行度量,并利用改进的TF-IDF算法计算主题相似度权值使用户能够选择相关度较高的网页,从而获得相对应的PageRank权值。实验结果表明,与微博常用排序算法相比,改进PageRank算法具有更好的用户影响力排序效果。  相似文献   

3.
冯振明 《微机发展》2006,16(7):82-84
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索算法予以支持。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。文中介绍了这个搜索引擎的核心:PageRank算法。PageRank算法通过计算网页的重要性值———PageRank值来确定网页排序的优先级,而网页的PageRank值则是通过累加指向该网页的其他网页的PageRank值得到的。因此Google的搜索结果是高效的、客观正确的。  相似文献   

4.
随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率.  相似文献   

5.
Google核心——PageRank算法探讨   总被引:1,自引:0,他引:1  
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索算法予以支持。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。文中介绍了这个搜索引擎的核心:PageRank算法。PageRank算法通过计算网页的重要性值——PageRank值来确定网页排序的优先级,而网页的PageRank值则是通过累加指向该网页的其他网页的PageRank值得到的。因此Google的搜索结果是高效的、客观正确的。  相似文献   

6.
融合VSM技术的PageRank算法研究与应用   总被引:1,自引:0,他引:1  
李卫东  陆玲 《计算机与现代化》2011,(7):96-98,101,104
为解决PageRank算法存在的"主题漂移"问题,本文提出一种融合VSM(向量空间模型)技术的改进方法。首先根据网页的链接结构计算PageRank值,然后建立网页的内容特征向量空间,计算主题内容相似度,最后将这两个值按一定的权重系数进行融合计算,产生新的PageRank值。经过对比实验证明,改进后的PageRank算法减少了无关网页的数量,为搜索引擎提供了更好的排序结果。  相似文献   

7.
通过对网页用户角色的分析发现,传统的基于PageRank算法的搜索引擎结果排序欠佳,是因为其没有兼顾所有角色对网页重要性的评价。为此,提出一种结合了所有角色评价的综合网页排序算法——ComPageRank(CPR)算法和一种基于点击量分析的Click- throughRank(CTR)算法。实验结果表明,相比PageRank为代表的网页排序算法,CPR算法更全面、合理。  相似文献   

8.
基于PageRank的页面排序改进算法   总被引:2,自引:3,他引:2  
首先对PageRank算法进行了一般性介绍,研究了现有的基于链接结构的改进算法.在此基础上,指出PageRank算法给不同网页分配相同的Pagegank值影响了网页的排序质量,提出了一种基于多层分类技术的改进算法HCPR,并对PageRank和HCPR算法进行了相应测试和比较.实验结果表明,HCPR的排序结果比PageRank提高了约15.3%的相关度.  相似文献   

9.
原福永  张园园 《计算机工程与设计》2007,28(7):1630-1631,1662
搜索引擎的相关结果排序技术是信息检索技术发展中的关键问题,也是将来研究的热点问题之一.在分析传统的相关排序方法基础上,介绍了PageRank算法和HITS算法的核心技术,指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处,根据面向主题的思想,在重新计算链接对网页的影响的基础上,提出了一种新的关于链接技术的排序方法,并通过实验对该算法的性能进行分析评价.  相似文献   

10.
张芳 《福建电脑》2009,25(6):95-95
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但它只考虑了网页的具体内容和超链接信息,忽略了网页的用户应用信息。在分析了几种PageRank算法基础上,提出了一种新的基于网页更新率和用户行为分析的PageRank算法。实验表明。所提出的算法能较好地改进搜索结果的精确度。  相似文献   

11.
搜索引擎PageRank算法的改进   总被引:2,自引:1,他引:1       下载免费PDF全文
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性。实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank值。  相似文献   

12.
针对传统PageRank算法存在的平分链接权重和忽略用户兴趣等问题,提出一种基于学习自动机和用户兴趣的页面排序算法LUPR。在所提方法中,给每个网页分配学习自动机,其功能是确定网页之间超链接的权重。通过对用户行为进一步分析,以用户的浏览行为衡量用户对网页的兴趣度,从而获得兴趣度因子。该算法根据网页间的超链接和用户对网页的兴趣度衡量网页权重计算每个网页的排名。最后的仿真实验表明,较传统的PageRank算法和WPR算法,改进后的LUPR算法在一定程度上提高了信息检索的准确度和用户满意度。  相似文献   

13.
随着互联网海量信息的不断涌现,根据用户的兴趣提供相关查询结果,是现有搜索引擎要考虑的一个问题,PageRank算法是基于链接的排序算法,已在Google搜索引擎广泛应用,但其忽略了用户个性化需求。采用网页预分类技术,来表示用户查询的兴趣度,进一步提出改进传统的PageRank算法,从而能适当提高用户在使用搜索引擎方面的个性化需求。  相似文献   

14.
基于PageRank的Web挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
焦金涛 《计算机工程》2009,35(15):284-284
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。  相似文献   

15.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·  相似文献   

16.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响.  相似文献   

17.
在大规模在线社交网络中,通过对用户影响力进行排序找出其中最具影响力的节点(集合)是一个很重要的研究方向,对于有效控制信息扩散、舆情分析和控制、精准营销等均有重要的作用。已有的节点影响力排序算法或者需要网络的全局拓扑信息来计算单个节点影响力(如基于介数中心性的算法)而时间开销过大,不适用于大规模网络;或者基于传统的网页排序算法(如PageRank)而不能很好地处理社交网络中存在着大量“末梢”节点的问题以及不同用户之间的联系强度不同的问题。在传统的PageRank算法的基础上做出了两点改进。首先,通过在PageRank算法的权值回收步骤中考虑对不同的连接赋予不同的权值,有效避免了末梢节点带来的影响。其次,在PageRank算法的投票过程中考虑邻居个体的差异性,提出了一种基于半邻域信息的节点权值分配方法,有效提高了节点排序的准确度。在一个包含大约15 000个用户的样本网络中,我们所提出的改进算法能够找出前1 000个最有影响力的节点中的40%以上的节点,而传统的PageRank算法仅能找出其中11%的节点。同时,相比于基于介数中心性的算法,所提出的改进算法以小得多的时间开销达到了相近甚至更好的排序准确度。  相似文献   

18.
PageRank is an algorithm for computing a ranking for every Web page based on the graph of the Web. It plays an important role in Google’s search engine. The core of the PageRank algorithm involves computing the principal eigenvector of the Google matrix. Currently, we need to solve PageRank problems with high damping factors, which cost considerable time. A possible approach for accelerating the computation is the Arnoldi-type algorithm. However, this algorithm may not be satisfactory when the damping factor is high and the dimension of the Krylov subspace is low. Even worse, it may stagnate in practice. In this paper, we propose two strategies to improve the efficiency of the Arnoldi-type algorithm. Theoretical analysis shows that the new algorithms can accelerate the original Arnoldi-type algorithm considerably, and circumvent the drawback of stagnation. Numerical experiments illustrate that the accelerated Arnoldi-type algorithms usually outperform many state-of-the-art accelerating algorithms for PageRank. Applications of the new algorithms to function predicting of proteins are also discussed.  相似文献   

19.
Search engines result pages (SERPs) for a specific query are constructed according to several mechanisms. One of them consists in ranking Web pages regarding their importance, regardless of their semantic. Indeed, relevance to a query is not enough to provide high quality results, and popularity is used to arbitrate between equally relevant Web pages. The most well-known algorithm that ranks Web pages according to their popularity is the PageRank.The term Webspam was coined to denotes Web pages created with the only purpose of fooling ranking algorithms such as the PageRank. Indeed, the goal of Webspam is to promote a target page by increasing its rank. It is an important issue for Web search engines to spot and discard Webspam to provide their users with a nonbiased list of results. Webspam techniques are evolving constantly to remain efficient but most of the time they still consist in creating a specific linking architecture around the target page to increase its rank.In this paper we propose to study the effects of node aggregation on the well-known ranking algorithm of Google (the PageRank) in the presence of Webspam. Our node aggregation methods have the purpose to construct clusters of nodes that are considered as a sole node in the PageRank computation. Since the Web graph is way to big to apply classic clustering techniques, we present four lightweight aggregation techniques suitable for its size. Experimental results on the WEBSPAM-UK2007 dataset show the interest of the approach, which is moreover confirmed by statistical evidence.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号