首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
基于PageRank的页面排序改进算法   总被引:2,自引:3,他引:2  
首先对PageRank算法进行了一般性介绍,研究了现有的基于链接结构的改进算法.在此基础上,指出PageRank算法给不同网页分配相同的Pagegank值影响了网页的排序质量,提出了一种基于多层分类技术的改进算法HCPR,并对PageRank和HCPR算法进行了相应测试和比较.实验结果表明,HCPR的排序结果比PageRank提高了约15.3%的相关度.  相似文献   

2.
通过分析PageRank算法存在的偏重旧网页问题、主题偏移问题及网页欺骗问题,提出一种基于用户反馈的PageRank改进算法,该算法在原算法的基础上添加用户点击次数反馈和点击时间反馈及反馈权重,并结合基于网页内容的排序算法思想,加入网页内容权重,对PR值的计算公式进行改进,从而克服PageRank算法中存在的问题。  相似文献   

3.
PageRank算法中主题漂移的研究   总被引:1,自引:0,他引:1  
pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂移现象。产生这一问题的原因有两个,一是pagerank对网页权值平均分配,二是pagerank与查询主题的无关性。本文从这二方面入手,采用tf-idf算法计算主题的相关权重,提出了与查询主题相关的query-basedpagerank算法,有效地解决了原算法中的主题漂移问题。  相似文献   

4.
提出一种基于PageRank的页面排序算法.采用网页类别相关度计算,对来自不同类别网页所传递的权威值赋予相应的权重;根据链接所属信息块重要性的不同,赋予相应权值.实验表明,该算法对提高页面排序质量是有效的.  相似文献   

5.
基于主题特征和时间因子的改进PageRank算法   总被引:2,自引:0,他引:2  
经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同.针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighmd topic PageRank).该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动.仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果.  相似文献   

6.
基于网页链接和内容分析的改进PageRank算法   总被引:9,自引:0,他引:9  
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。  相似文献   

7.
经典的基于链接结构的PageRank算法,它主要是依据页面之间的链接关系进行排序,容易出现主题漂移、忽视专业站点、偏重旧网页等缺点。针对这些问题,从超文本相关性、基于网站权威性权重因子和时间权重方面提出改进。实验结果表明,与传统的PageRank排序算法相比,改进算法能有效提高查准率,提高用户对排序结果的满意度。  相似文献   

8.
PageRank算法研究   总被引:17,自引:0,他引:17  
黄德才  戚华春 《计算机工程》2006,32(4):145-146,162
深入剖析了著名搜索引擎Google的关键技术PageRank算法,介绍分析了该算法的当前发展现状。并针对PageRank算法容易出现主题漂移现象,利用提出的二阶相似度改进算法。实验表明,改进的算法有利于减少主题漂移现象,提高用户对检索结果的满意度。  相似文献   

9.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

10.
搜索引擎页面排序算法研究综述*   总被引:3,自引:0,他引:3  
系统地分析了现有的页面排序算法,指出了它们各自的优势和存在的不足,并指出不同算法在不同领域和场合所具有的优势。建立专业搜索引擎是提高搜索准确性和性能的有效途径。通过网格技术将各种专业搜索引擎集成在一起,形成一个基于网格的搜索引擎,从而更好地满足不同背景不同偏好的用户需求。  相似文献   

11.
该文基于传统的PageRank链接分析原理,分析了PageRank在页面主题内容分析方面的不足之处,结合传统的基于内容的VSM文本分析模型.提出了一种基于向量空间模型的主题算法,并通过实验对改算法的性能进行分析。  相似文献   

12.
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。  相似文献   

13.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存...  相似文献   

14.
一种基于用户标记的搜索结果排序算法   总被引:1,自引:0,他引:1  
随着计算机网络的快速发展,网络上的信息量也日益纷繁复杂.如何准确、快速地帮助人们从海量网络数据中获取所需信息,这是目前搜索引擎首要解决的问题,为此,各种搜索排序算法应运而生.但是目前,网页信息的表达形式都十分简单,用户描述查询的形式更是十分简单,这就造成了在判断网页内容与用户查询相关性时十分困难.首先对现有的搜索引擎排序算法进行了分类总结,分析它们的优缺点.然后提出了一种基于用户反馈的语义标记的新方法,最后采用多种评估方法与Google搜索结果进行对比分析.实验结果表明,利用该方法所得到的排序结果比Google的排序结果更接近用户需求.  相似文献   

15.
经典的PageRank算法对所有出链网页采用平均分配链出权值的策略,这种方式会导致网页PR值计算的不准确性。通过对链出网页的重要性进行分析,优化链出权值的分配策略,实验结果表明,改进的PageRank算法使得页面排序的结果更加优化。  相似文献   

16.
由于网页质量千差万别,对网页进行基于网络链接图的质量排序变成了现代搜索引擎的一个重要部件.分析了对网络排序模块的实现进行优化时,造成大规模稀疏矩阵-向量乘法运算低效的原因,并结合网络链接图的实际情况提出了几种不同的优化策略.然后,对几种优化策略做了实验性能比较,并综合考虑各种优化策略的运算效率和存储量需求,选择了适合实际系统的优化策略.同时,提出PageRank算法在实现时的一个变通处理--除汇.  相似文献   

17.
为了克服搜索引擎在搜索过程中经常重复性地把当前受欢迎的网页放在搜索结果的首要位置,而忽略那些不受大多数用户欢迎的网页的问题,文中提出一个采用改进受欢迎度的PageRank优化算法.该改进算法首先通过建立网页的真实质量函数来纠正搜索引擎的上述问题,然后再采用一个新的网页受欢迎度来消除内在的网页质量问题从而避免该问题.实验...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号