首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
PageRank算法中主题漂移的研究   总被引:1,自引:0,他引:1  
pagerank算法仅根据网页的pagerank值对搜索结果进行排序,一个网页的pagerank值越高,其位置越靠前,这使得pagerank算法无法区分搜索结果中与主题相关的权威网页和与主题无关的权威网页。也正因此在使用pagerank算法时往往会发生主题漂移现象。产生这一问题的原因有两个,一是pagerank对网页权值平均分配,二是pagerank与查询主题的无关性。本文从这二方面入手,采用tf-idf算法计算主题的相关权重,提出了与查询主题相关的query-basedpagerank算法,有效地解决了原算法中的主题漂移问题。  相似文献   

2.
介绍了目前应用较为广泛的两种算法——PageRank算法和HITS算法。PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系。PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority。  相似文献   

3.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。  相似文献   

4.
基于PageRank和HITS的Web搜索   总被引:1,自引:0,他引:1  
介绍了目前应用较为广泛的两种算法--PageRank算法和HITS算法.PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页间的加强关系.PageRank算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面.而HITS算法则专注于改善泛指主题检索的结果,通过一定的计算(迭代计算)方法以得到针对某个检索提问的最具价值的网页,即排名最高的authority.  相似文献   

5.
dPageRank——一种改进的分布式PageRank算法   总被引:3,自引:0,他引:3  
陈再良  凌力  周强 《计算机应用》2006,26(1):21-0024
回顾了传统的PageRank计算方式,分析了等级泄漏和悬挂页面问题的解决方法。介绍了分布式PageRank的计算原理和评价原则,在分析两种现有分布式PageRank算法的基础上,提出了一种改进的分布式PageRank算法,通过实验对该算法的性能进行分析评价。  相似文献   

6.
姜鑫维  赵岳松 《微机发展》2007,17(5):238-241
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。  相似文献   

7.
国伟  王浩 《电脑开发与应用》2007,20(6):51-53,57
针对当前大部分网站使用的是动态页面,分析日志比较困难的问题,给出了在动态网页环境下Web使用记录挖掘的数据采集方法;为了使计算简单、快捷,给出了一种Web用户和页面的直接模糊聚类算法,从而能够根据学生的访问规律对页面内容进行分类、总结和预测趋势,指导高校网站的建设,提高网络教育,具有很好的实用价值。  相似文献   

8.
Topic PageRank——一种基于主题的搜索引擎   总被引:1,自引:0,他引:1  
通过研究传统的超链分析算法PageRank及其改进算法Hilltop和TSPR的不足,提出了一种新的改进的方法Topic PageRank。这种算法是对每一个页面进行页面分类,然后根据分类的结果分别对每一个主题进行页面等级计算,因此,每一个页面对不同的主题将呈现出不同的页面等级得分,能更加准确地反映出页面的重要性。  相似文献   

9.
选择恰当的情报主题相关度预测策略,控制采集情报质量为企业的决策提供正确有效的素材是面向主题的情报采集的核心技术之一。单一依靠文本或链接的情报主题相关度预测策略,不能准确有效地预测待爬网页的价值。该文提出一种基于主题的PageRank算法—Focused PageRank算法来计算网页URL优先级。该方法考虑了页面内容的主题相关度以提高抓取页面的质量,通过网页链接关系预测网页的重要度以提高情报采集的覆盖率。从而提高情报采集的速度和效率,实现不同情报主题下页面URL优先级排序,适应企业竞争情报系统对多主题情报信息的采集。  相似文献   

10.
网页链接的主题相关性影响页面的权威性计算,传统的HITS算法仅从页面的链接结构评估页面的权威性,易导致主题漂移.对HITS算法进行了扩展,提出了一种主题驱动的HITS算法.该算法分析页面文档、链接的主题相关性,把主题相关性融入权威性计算,利用页面链接的拓扑结构传播页面的权威性.该算法能够搜索到与主题高耦合的结果,有效控制主题漂移,改善搜索质量.  相似文献   

11.
In this work we propose a model to represent the web as a directed hypergraph (instead of a graph), where links connect pairs of disjointed sets of pages. The web hypergraph is derived from the web graph by dividing the set of pages into non-overlapping blocks and using the links between pages of distinct blocks to create hyperarcs. A hyperarc connects a block of pages to a single page, in order to provide more reliable information for link analysis. We use the hypergraph model to create the hypergraph versions of the Pagerank and Indegree algorithms, referred to as HyperPagerank and HyperIndegree, respectively. The hypergraph is derived from the web graph by grouping pages by two different partition criteria: grouping together the pages that belong to the same web host or to the same web domain. We compared the original page-based algorithms with the host-based and domain-based versions of the algorithms, considering a combination of the page reputation, the textual content of the pages and the anchor text. Experimental results using three distinct web collections show that the HyperPagerank and HyperIndegree algorithms may yield better results than the original graph versions of the Pagerank and Indegree algorithms. We also show that the hypergraph versions of the algorithms were slightly less affected by noise links and spamming.  相似文献   

12.
当今互联网已成为一个巨大的开放式知识库,其中包含着许多有价值的信息。互联网信息呈现形式多样性的 特点,如何初步筛选出有价值的网页,是信息抽取的第一要务,也是构建知识库的基础。本文在建立互联网模型基础上,利用 Hadoop 平台下的Pagerank 算法,旨在研究如何在节省时间和空间基础上筛选出有价值的网页,为从互联网抽取有价值信息构 建知识库提供解决方案。  相似文献   

13.
蓝昊慧 《计算机时代》2012,(10):30-33,37
在研究Web结构挖掘经典算法Pagerank和云计算关键技术Mapreduce的基础上,将Pagerank算法与Mapreduce 编程模型结合,针对基于并行Pagerank算法运行大数据集时面临的每次迭代访问HDFS导致I/O消耗增加、每次迭代在混合阶段和排序阶段时耗过多的问题提出了两个改进算法.一个是利用矩阵分块思想的并行Pagerank改进算法;另一个是减少HDFS访问次数的并行Pagerank改进算法.最后利用Hadoop搭建云环境,在实验环境下分析了不同的BlockSize参数对于计算性能的影响.并在云环境下面向不同的Web数据集,测试了原算法和改进算法的性能.结果表明,改进后的算法分别在结果集的空间占用方面和总迭代时间方面具有一定的优越性.  相似文献   

14.
基于幂律分布的网络用户快速排序算法   总被引:1,自引:0,他引:1  
随着网络论坛、博客、微博的发展,引出社会网络中的用户排序问题。将在线网络论坛中用户映射为节点,用户评论过程中形成的回复关系映射为有向关联图,其节点度符合幂律分布。且论坛中用户的主题发布行为和回复关系符合Pagerank算法的互增强和随机游走特性,因此选用Pagerank算法排序用户影响力。该文提出的研究问题 如何提高用户排序应用中数据的存储和运行效率。天涯网络论坛中80%以上用户入度为0,据此,根据入度是否为0划分为两个集合,对入度为0集合按出度构造链接表,设计了基于集合划分的高效排序算法SD-Rank。SD-Rank时空复杂性为O(V′),V′为入度非0节点集。对天涯网络论坛真实用户数据的实验结果表明 SD-Rank算法时空复杂性优于Pagerank算法。  相似文献   

15.
针对微博文本的特点,提出了一种自动识别微博标引词的方法。根据微博文本中的名词或动词之间语义相似度构造图的邻接矩阵,在图的邻接矩阵基础上利用Pagerank算法思想来计算词语的重要度,选择重要度较大的一些词作为标引词。实验结果表明,较传统的自动标引方法,提出的自动标引方法简单实用、准确率较高。  相似文献   

16.
The PageRank algorithm is one of the most commonly used techniques that determines the global importance of Web pages. In this paper, we present a preconditioned Arnoldi-Inout approach for the computation of Pagerank vector, which can take the advantage of both a new two-stage matrix splitting iteration and the Arnoldi process. The implementation and convergence of the new algorithm are discussed in detail. Numerical experiments are presented to illustrate the effectiveness of our approaches.  相似文献   

17.
通过比较普通爬虫与主题爬虫,以主题相关性为核心设计搜集数码产品信息的主题爬虫。提出相似度和PageRank相结合的排序算法,从而保证所搜集网页的主题相关性,切返用户之需,为主题搜索引擎的实现奠定了良好的基础。  相似文献   

18.
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。该算法充分考虑结构差别较大的网页对网页正文提取的影响,通过计算网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。实验结果表明,该方法具有更高的准确率,各项评价指标均有所提高。  相似文献   

19.
针对现有信任度量方法不能解决实体间评价尺度的差异性而普遍存在信任度量准确性下降的问题,提出了一种基于模糊修正的信任度量算法。通过模糊成员函数表达了信任值的语义,并详细描述了一种推荐信任值的模糊修正算法,在此基础上提出了基于相似度的推荐信任聚合机制。实验结果表明,与PageRank和TidalTrust算法相比,该算法增强了信任度量的准确性,降低了信任决策中的误判率。  相似文献   

20.
一种动态网页保护系统的设计与实现   总被引:5,自引:0,他引:5  
随着动态网页技术的应用越来越广泛,有必要对动态网页的保护技术进行研究。本文在讨论了动态网页保护系统和非法用户的概念之后,首次在国内设计开发了一种可行的动态网页保护系统。该系统已获“计算机软件著作权登记”。文中对系统的体系结构、网页脚本保护、数据库保护以及系统的自保护做了详细讨论。文章最后指出了该系统在提高智能性方面需要进一步改进之处。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号