首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
基于网页链接和内容分析的改进PageRank算法   总被引:9,自引:0,他引:9       下载免费PDF全文
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。  相似文献   

2.
该文基于传统的PageRank链接分析原理,分析了PageRank在页面主题内容分析方面的不足之处,结合传统的基于内容的VSM文本分析模型.提出了一种基于向量空间模型的主题算法,并通过实验对改算法的性能进行分析。  相似文献   

3.
PageRank是Web主题检索最成功的算法之一,但它同时也存在一些问题。PageRank算法仅仅考虑了Web的链接结构,并没有考虑链接所携带的内容信息。针对这种情况,本文提出了根据链接临近文本信息对PageRank进行主题矫正计算的方案,最终使用PageRank与主题矫正值的和替换整最初的PageRank。模拟实验结果表明,改进后的算法可以提高PageRank算法的查全率。  相似文献   

4.
基于网页链接与用户反馈的PageRank算法改进研究   总被引:1,自引:0,他引:1  
曹姗姗  王冲 《计算机科学》2014,41(12):179-182
在网页链接结构的排序算法PageRank的基础上,提出了一种改进的Bias PageRank(BPR)算法。为了提高用户对网页排序结果的满意度,该算法结合网页链接结构与用户反馈信息(点击率、最近一次点击时间等)进行综合分析,从而从网页设计与用户角度共同对网页PR值进行合理分配,以在一定程度上达到高质量网页尽量排序靠前、信息价值低的网页尽量下沉的目的。仿真实验表明,BPR算法在一定程度上改善了排序效果,提升了用户信息检索满意度。  相似文献   

5.
网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐,链向相同网页的锚文本质量也有优劣之分,但高质量源网页的锚文本不一定比质量低源网页的准确。对相似度高的锚文本加以修正,即通过计算查询词和锚文本相似度,对于相似度较高但源于PageRank值低的源网页的锚文本加以补偿,并重新排序查询结果。  相似文献   

6.
赵亚娟  闫娜 《数字社区&智能家居》2014,(27):6365-6366,6368
互联网信息的海量性一方面带给人们无穷的信息,另一方面也给人们的信息获取工作带来一定的困难。因而能够快捷高效地提供高质量的查询结果的互联网搜索引擎将受到大众的青睐。在网页搜索中,PageRank和hits是重要的基于链接的排序算法,在百度、谷歌等商业引擎中使用广泛。但在PageRank算法中也极存在一些问题,导致其容易受垃圾网页的攻击,不利于人们高质量地从互联网上获取信息,因此,有必要对PageRank算法进行改进,从而改善网页质量,提高信息获取的高效准确性。该文基于这样的背景对PageRank算法改进进行分析,以更好地实现信息的有效流通,让高质量的网页得到更多关注。  相似文献   

7.
一种抵抗链接作弊的PageRank改进算法   总被引:3,自引:0,他引:3  
大量的基于链接的搜索引擎作弊方法对传统PageRank算法造成了巨大的影响,例如,链接农场、交换链接、黄金链、财富链等使得网页的PageRank值失去了公正性和权威性。该文在分析多种作弊方法对传统PageRank算法所造成的不利影响的基础上,提出了一种可以抵抗链接作弊的三阶段PageRank算法-TSPageRank算法,该文对TSPageRank算法的原理进行了详细分析,并通过实验证明TSPageRank算法比传统的PageRank算法在效果上提高了59.4%,能够有效地提升重要网页的PageRank值,并降低作弊网页的PageRank值。  相似文献   

8.
现有PageRank算法的多种改进研究,对新网页歧视、语言差异歧视、主题漂移、忽视用户浏览兴趣等问题仍然没有给出较好的解决方案。本文提出改进算法TWPR(PageRank based on Three Weights)。该算法将时间特性分析、语言链接结构分析和用户行为相结合,旨在提升更新较快、链接行为优良、用户感兴趣度高的中文网页PR值。实验证明,改进算法可有效提高网页检索的命中率,改善搜索质量。  相似文献   

9.
基于PageRank的Web挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
焦金涛 《计算机工程》2009,35(15):284-284
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。  相似文献   

10.
通过分析PageRank算法存在的偏重旧网页问题、主题偏移问题及网页欺骗问题,提出一种基于用户反馈的PageRank改进算法,该算法在原算法的基础上添加用户点击次数反馈和点击时间反馈及反馈权重,并结合基于网页内容的排序算法思想,加入网页内容权重,对PR值的计算公式进行改进,从而克服PageRank算法中存在的问题。  相似文献   

11.
基于PageRank算法的权威值不均衡分配问题   总被引:1,自引:0,他引:1       下载免费PDF全文
田甜  倪林 《计算机工程》2007,33(18):53-55
PageRank对所链接的网页的“权威值”存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。  相似文献   

12.
经典的PageRank算法对所有出链网页采用平均分配链出权值的策略,这种方式会导致网页PR值计算的不准确性。通过对链出网页的重要性进行分析,优化链出权值的分配策略,实验结果表明,改进的PageRank算法使得页面排序的结果更加优化。  相似文献   

13.
提出一种基于PageRank的页面排序算法.采用网页类别相关度计算,对来自不同类别网页所传递的权威值赋予相应的权重;根据链接所属信息块重要性的不同,赋予相应权值.实验表明,该算法对提高页面排序质量是有效的.  相似文献   

14.
传统PageRank算法仅仅通过网页链接结构来确定网页的PageRank值,这通常会导致主题漂移问题,即主题内容不相关的网页PageRank值较高。改进的PageRank算法根据链接的网页之间的内容相关性分配rank值,并且将网页的时间因素考虑在内,提高新的内容相关网页的rank值。实验结果证明,改进后的算法有效解决原算法的主题漂移问题,并使新网页在排序结果中上升。  相似文献   

15.
基于PageRank的页面排序改进算法   总被引:2,自引:3,他引:2  
首先对PageRank算法进行了一般性介绍,研究了现有的基于链接结构的改进算法.在此基础上,指出PageRank算法给不同网页分配相同的Pagegank值影响了网页的排序质量,提出了一种基于多层分类技术的改进算法HCPR,并对PageRank和HCPR算法进行了相应测试和比较.实验结果表明,HCPR的排序结果比PageRank提高了约15.3%的相关度.  相似文献   

16.
PageRank算法研究综述   总被引:5,自引:2,他引:5  
网页排序是搜索引擎的关键技术之一。介绍了著名的PageRank算法,针对其存在主题漂移、偏重旧网页等不足,分析了各种改进算法的基本思想和技术特点,希望为以后的研究工作提供基础性支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号