首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 61 毫秒
1.
基于PageRank和HITS的Web搜索   总被引:1,自引:0,他引:1  
介绍了目前应用较为广泛的两种算法--PageRank算法和HITS算法.PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系.PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面.而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority.  相似文献   

2.
基于PageRank算法和HITS算法的期刊评价研究   总被引:1,自引:0,他引:1  
由31种计算机技术类核心期刊形成期刊引文网络,利用PageRank算法和HITS算法分别计算其PageRank值、权威值(authority)和中心值(hub)。通过与影响因子的对比研究,讨论了PageRank值、权威值、中心值和影响因子用于期刊评价的区别和优缺点。实例结果表明期刊影响因子的排名与PageRank算法、HITS算法的结果排名略有差距,说明不同的评价算法反映出不同的期刊评价目的。  相似文献   

3.
PageRank算法的优化和改进   总被引:4,自引:2,他引:2       下载免费PDF全文
在PageRank算法中是使用乘幂法对网络链接图的Markov矩阵进行迭代计算,利用迭代矩阵A=[CP+(1-cE]T中Google矩阵P的稀疏性,优化每次迭代的计算量并且减少空间存储量。在乘幂法证明理论基础上,提出了一种修正的外推方法称为线性外推法,并且利用Google矩阵的第二特征值的性质,使得在乘幂法的计算过程中达到快速收敛。从而在不增加空间存储的基础上缩短计算时间。最后结合实际数据测试,说明理论推导的结果达到了良好的实际使用效果。  相似文献   

4.
HITS是一种经典的链接分析算法,其主要问题是容易发生主题漂移。针对这一问题,提出了一种改进的算法:MCHITS。MCHITS利用最大流算法对HITS进行改进:首先将root集扩展两层,然后将root中的结点作为种子结点通过最大流最小割算法发现以root集为中心的社区,社区中的页面作为MC-base集。实验结果表明MCHITS提高了查询结果的相关度,减少了主题漂移的发生。  相似文献   

5.
PageRank是一种基于网络超链接结构估计网页重要性的方法。最初的PageRank算法是使用幂法迭代,直到表示网络结构的马尔可夫矩阵收敛到一个最大的特征向量。文章在幂法的理论基础上,利用特征向量二维线性表达的假设,给出了一种新方法,使得修正后的幂法计算PageRank时,求特征向量的过程可以达到快速收敛。  相似文献   

6.
随着Web技术的发展和Web上越来越多的各种信息,如何提供高质量、相关的查询结果成为当前Web搜索引擎的一个巨大挑战.PageRank和HITS是两个最重要的基于链接的排序算法并在商业搜索引擎中使用.然而,在PageRank算法中,每个网页的PR值被平均地分配到它所指向的所有网页,网页之间的质量差异被完全忽略.这样的算法很容易被当前的Web SPAM攻击.基于这样的认识,提出了一个关于PageRank算法的改进,称为Page Quality Based PageRank(QPR)算法.QPR算法动态地评估每个网页的质量,并根据网页的质量对每个网页的PR值做相应公平的分配.在多个不同特性的数据集上进行了全面的实验,实验结果显示,提出的QPR算法能大大提高查询结果的排序,并能有效减轻SPAM网页对查询结果的影响.  相似文献   

7.
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。  相似文献   

8.
HITS算法是Web结构挖掘中一种经典的链接分析算法,其主要问题是容易发生主题漂移.针对这一问题,提出了一种基于文本内容和链接分析相结合的改进算法.实验证明改进后的算法提高了查询结果的相关度,降低了主题漂移的可能性.  相似文献   

9.
HITS算法探究     
随着互联网的快速发展,搜索引擎的应用已经变得非常广泛,但是却很少有人能够对搜索引擎的算法设计知道多少。通过对搜索引擎的算法设计思想及原理的了解,将更加有助于提供高我们的信息检索能力。文章主要就搜索引擎算法中的HITS算法进行简要的分析。  相似文献   

10.
冯振明 《微机发展》2006,16(7):82-84
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索算法予以支持。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。文中介绍了这个搜索引擎的核心:PageRank算法。PageRank算法通过计算网页的重要性值———PageRank值来确定网页排序的优先级,而网页的PageRank值则是通过累加指向该网页的其他网页的PageRank值得到的。因此Google的搜索结果是高效的、客观正确的。  相似文献   

11.
基于网页链接和内容分析的改进PageRank算法   总被引:9,自引:0,他引:9       下载免费PDF全文
结合网页链接分析和网页内容相关性分析提出一种改进的PageRank算法EPR(Extended PageRank),从分析网页内容相似性的角度解决相关性需求,从网页链接分析的角度解决权威性需求。算法为扩展PageRank提供了广阔的空间,并且实验证明,通过选择合适的参数EPR算法可以获得优于传统PageRank算法的排序结果。  相似文献   

12.
近年来,Intranet不断飞速发展,导致信息量趋于庞大。于是如何让用户查找到自己想要的信息成为Intranet搜索引擎的一个难题。关于这个问题,它将对几种经典的Intranet搜索排序算法进行分析、比较。希望在以后的开发中可以以它为参照,进行相关算法的改进,尽可能的让算法更接近完美,使搜索结果更能符合用户的需求。  相似文献   

13.
基于PageRank的Web挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
焦金涛 《计算机工程》2009,35(15):284-284
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。  相似文献   

14.
该文就搜索引擎中链接结构算法问题进行研究,分析了PageRank和HITS两种不同的算法,并对算法中明显的缺陷提出了改进措施。通过测试,验证使用改进的算法在搜索质量等方面有明显提高。  相似文献   

15.
针对串行PageRank算法在处理海量网页数据时效率低下的问题,提出一种基于网页链接分类的PageRank并行算法.首先,将网页按照网页所属网站分类,为来自不同站点的网页设置不同的权重;其次,利用Hadoop并行计算框架,结合MapReduce分而治之的特点,并行计算网页排名;最后,采用一种包含3层:数据层、预处理层、计算层的数据压缩方法,对并行算法进行优化.实验结果表明,与串行PageRank算法相比,所提算法在最好情况下结果准确率提高了12%,计算效率提高了33%.  相似文献   

16.
网页排序技术在搜索引擎中有着重要作用,它在一定程度上决定了搜索引擎的质量。概括了网页排序算法,详细分析了目前已知的各种排序方法的基本思想和技术特点,并比较了它们的优缺点,最后指出了网页排序技术的发展思路。  相似文献   

17.
网络结构挖掘是以超链接分析为基础,从链接结构中获取有用的知识,利用这些知识,重新组织结构,使内容逻辑结构更加合理.深入研究现有的网络结构挖掘系统,并在对其核心算法PageRank和HITS中所存在的问题作了详细分析的基础上提出了自己的改进算法,主要是对每个网页定义这三个参数:PageRank,Authority,Hub,并进行分析与优化,以便得到更好的查询结果,最后设计了一个改进网络结构挖掘系统原型,根据实验结果进行分析.  相似文献   

18.
Web搜索算法研究综述   总被引:1,自引:0,他引:1  
介绍了PageRank和HITS两种最常见的算法,对基于链接结构分析的web搜索算法的研究进展进行了综述,主要包括:介绍了独立于查询的各种改进算法以及基于查询主题的有关算法,并分析上述算法的优缺点及其改进策略或方法,以及web搜索算法的关键技术和应用,最后是关于Web搜索算法存在的问题和研究展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号