首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术,列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

2.
Web结构挖掘是对Web的链接结构进行分析。该文概述Web结构挖掘技术。列举其常见算法。并对PageRank和HITS这两种最重要的Web结构挖掘算法分析比较。通过对算法规律的研究,指出在网站设计规划时的策略以提高网站的价值。  相似文献   

3.
分析了Web结构挖掘算法PageRank和HITS,并对二者进行了比较,指出它们所存在的问题,提出了一种PageRank的改进算法。  相似文献   

4.
加速评估算法:一种提高Web结构挖掘质量的新方法   总被引:13,自引:1,他引:13  
利用Web结构挖掘可以找到Web上的高质量网页,它大大地提高了搜索引擎的检索精度,目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估,基于统计链接数目的算法存在一个严重缺陷:页面评价两极分化,一些传统的高质量页面经常出现在Web检索结果的前面,而Web上新加入的高质量页面很难被用户找到,提出了加速评估算法以克服现有Web超链接分析中的不足,并通过搜索引擎平台对算法进行了测试和验证。  相似文献   

5.
本文介绍了Web结构挖掘的基本原理.详细分析Google的PageRank算法,针对其中的缺陷进行改进,提出了一种集链接、时间、网页内容为一体的PageRank改进算法CTPR,目的是将内容与搜索内容相关度高的、比较权威的、新的网页排列在搜索结果的最前面.网页的等级由CTPR值决定,CTPR值由两个部分组成,一个是传统PR算法的值;另一个是网页自评值,它与内容权值成正比,与网页的内容的新旧程度成反比.最后,对此算法进行效果演示,验证算法的有效性.  相似文献   

6.
Web结构挖掘   总被引:18,自引:0,他引:18  
概述了Web结构挖掘的有关概念和相关应用,详细分析和比较了基于超链接结构分析的网页排序的最权威算法,提出了有关Web结构挖掘技术的几个新的研究方向,供感兴趣的同行参考。  相似文献   

7.
蓝昊慧 《计算机时代》2012,(10):30-33,37
在研究Web结构挖掘经典算法Pagerank和云计算关键技术Mapreduce的基础上,将Pagerank算法与Mapreduce 编程模型结合,针对基于并行Pagerank算法运行大数据集时面临的每次迭代访问HDFS导致I/O消耗增加、每次迭代在混合阶段和排序阶段时耗过多的问题提出了两个改进算法.一个是利用矩阵分块思想的并行Pagerank改进算法;另一个是减少HDFS访问次数的并行Pagerank改进算法.最后利用Hadoop搭建云环境,在实验环境下分析了不同的BlockSize参数对于计算性能的影响.并在云环境下面向不同的Web数据集,测试了原算法和改进算法的性能.结果表明,改进后的算法分别在结果集的空间占用方面和总迭代时间方面具有一定的优越性.  相似文献   

8.
应用Web结构挖掘的PageRank算法的改进研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为研究的热点。基于Web结构挖掘的PageRank算法存在不足的情况下,提出了一种改进的算法,实验结果证明改进的算法较原算法具有较好的效果,具有一定的实用价值。  相似文献   

9.
张金增  范明 《计算机应用》2009,29(1):213-216
针对原始最大流算法给每条边的边容量分配一个常量值,在社区质量及成员数量上造成的问题,提出了一种改进的Web社区挖掘算法。该算法考虑不同边的重要性差异,将加权PageRank算法中页面的重要度转化为衡量页面之间边重要性的传递概率值,并使用该值对边容量进行赋值。实验结果表明,改进的算法有效地提高了Web社区的质量。  相似文献   

10.
冉丽  何毅舟  许龙飞 《计算机应用》2004,24(10):158-160
搜索引擎作弊行为从搜索引擎优化中演变而来,却对网络发展带来负面影响。通过构造站内站外精简模型用于判断几类作弊行为,得出PageRank改进算法中惩罚因子的公式和其中三个函数的特征,展望了搜索引擎作弊检测方法的发展前景。  相似文献   

11.
Web结构挖掘及其算法   总被引:10,自引:0,他引:10  
王艳华  张纪 《计算机工程》2005,31(Z1):125-127
随着网络和数据挖掘技术的发展,Web数据挖掘得到了较多的研究。该文从Web结构挖掘的角度出发,在分析了网络有向图的总体结构以及导航页面、目标页面和网络功能的基础上,研究了结构挖掘算法,针对Hub页面的多主题性、无关页面、无关链接等问题,提出了HITS算法的改进算法。  相似文献   

12.
林耀进  王晨曦 《福建电脑》2008,(1):74-74,103
该文从Web结构挖掘角度出发,利用概率论分析了Web结构挖掘的PageRank算法,得出挖掘结果,最后介绍Dijkstra算法在其挖掘结果的应用。  相似文献   

13.
MapReduce是云计算技术主流的分布式计算模型,它充分利用计算机集群的处理能力;能对大规模数据进行高效的挖掘分析;在研究MapReduce模型架构的基础上,将云计算技术与数据挖掘技术结合在一起,提出了基于MapReduce模型的Apriori算法;该算法对事务集和项集进行双重二进制编码,只需"与"运算和"或"运算,提高了模式匹配和连接的效率;试验结果表明,该算法执行效率比传统集中式Apriori算法有很大幅度的提高。  相似文献   

14.
一种基于Web挖掘的网站性能评价方法   总被引:10,自引:0,他引:10  
文章分析了影响网站性能的各种因素,建立了评价网站性能的指标体系,提出了一种基于Web日志挖掘的评价网站性能的方法,有效地解决了网站性能的评价问题。  相似文献   

15.
近年来,计算机科学技术快速发展,在人们的生活、工作和学习中发挥着越来越重要的作用。计算机互联网的信息资源非常丰富,与此同时碎片化、海量的数据信息在很大程度上增加了人们获取有价值信息的成本和时间。当前云计算平台下的Web数据挖掘技术为海量数据信息的处理和分析提供了极大的便利,通过研究云计算平台下的Web数据挖掘,进一步完善和优化Web结构数据挖掘技术,降低大量数据信息存储和处理的成本,提高系统运行效率。本文简要介绍了云计算和Web数据挖掘,阐述了云计算平台下的Web数据挖掘系统。  相似文献   

16.
高水平论文是优秀科技人才的标志性成果之一.聚焦Web Of Science(WOS)热点研究学科,在构建学术论文语义Neo4j网络图和挖掘出活跃科研社区基础上,利用PageRank人才挖掘算法实现对科研社区中优秀科研人才的挖掘.首先,对现有的人才挖掘算法进行详细研究和分析;其次,结合WOS论文数据对PageRank...  相似文献   

17.
随着Internet的迅猛发展,Web成为了人们获取信息的重要途径。但是,网页数量的与日剧增,信息量的爆炸式增长,也为人们的信息查询带来了不便。Web数据挖掘技术的引入提高了检索质量,特别是Web结构挖掘在搜索引擎中的应用,很好地帮助用户快速从搜索结果中锁定对自己真正有用的信息。本文对基于结构挖掘的排序算法进行了大量搜集分析,并进行了归纳总结。  相似文献   

18.
周勇  刘锋 《微机发展》2008,18(3):151-153
Web站点是由许多Web页面构成的信息系统,随着网络的飞速发展,Web挖掘得到了越来越多的研究。如何从Web中找到与用户查询主题相关的权威页面,是Web结构挖掘的一个重要研究方向。粗糙集理论作为一种有效处理模糊和不确定信息的数学工具,由于其不需要任何先验知识,在数据挖掘领域取得了广泛的应用。文中概述了Web结构挖掘的有关概念,基于粗糙集理论,定义了Web结构挖掘的数据模型,并给出了基于粗糙集的Web结构挖掘的实现流程,分析说明了该方法的性能。  相似文献   

19.
随着网络与数据挖掘技术的发展,Web数据挖掘得到了较多的研究。本文从Web结构挖掘的角度出发,在分析了Web结构挖掘技术的基础上,研究了HITS算法。针对HITS算法的多主题性、无关页面、无关链接等问题,提出了HITS算法改进算法。  相似文献   

20.
一种基于Web日志文件的信息挖掘方法   总被引:19,自引:1,他引:19  
数据预处理和日志挖掘算法是Web日志挖掘中的关键技术。文中根据Web访问模式的用户特征,提出了一种基于Web日志文件的信息挖掘系统的体系结构。在此基础上,分析了其数据挖掘过程和信息挖掘算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号