共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
针对目前Nutch搜索引擎中没有实现PageRank计算的缺憾,在分析和研究经典PageRank算法的基础上,通过设置控制站外与站内链接的比重因子a对该算法进行了改进.利用MapReduce处理大数据集的优势,在Nutch机群系统上设计并实现了基于MapReduce的PageRank分布式并行算法.实验结果表明,处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性. 相似文献
3.
微博凭借其即时发布、实时传播、简便易用的特点逐渐成为最为主流的自媒体平台。用户影响力评价是微博社交网络中基本而又重要的问题,它对于优化与推动社会信息传播来说有着重要意义。以新浪微博为实验对象,通过综合考虑微博用户关系网络特性和用户行为,结合MapReduce编程计算模型,提出了一种基于MapReduce的新型用户影响力排名算法——QRank。在Hadoop平台上的实验结果表明,QRank算法具有良好的可扩展性,能够有效结合微博用户关系网络与行为特性,从而更加真实与充分地反映用户的实际影响力。 相似文献
4.
随着社交网络的发展,对于其数据的挖掘与分析已经成为一个热门领域。在微博中,用户排名通常是单纯根据粉丝人数进行排列,而这种方法并不公正。针对这一问题,结合网页PageRank算法,提出了新的排名算法,以用户为节点,用户关系为有向边,建立概率转移矩阵,计算微博用户PageRank值。该算法能有效减少垃圾用户对微博排名的影响,来提高排名的公平性与准确性。实验测试在云环境下进行,结果显示了新的排名结果,与现有的微博粉丝排名相比,更加公平,具有一定的实用价值。 相似文献
5.
贺彬 《电脑编程技巧与维护》2021,(12):97-100
介绍了MapReduce编程框架产生的背景,研究了Hadoop MapReduce的架构和工作过程,给出了MapReduce的优缺点,并指出了下一步发展的方向.基于MapReduce的思路,从零开始实现了一个可扩展通用的MapReduce编程框架,实例证明,并行化编程MapReduce在大数据处理时的优势. 相似文献
6.
7.
《计算机应用与软件》2016,(6)
针对DHP(direct hashing and pruning)算法对大数据挖掘关联规则存在执行时间过长、效率不高的问题,对DHP算法的并行化策略进行了研究。根据云计算平台Hadoop的MapReduce并行编程模型,设计了一种并行DHP算法,给出了算法的总体流程和Map函数、Reduce函数的算法描述。与DHP算法相比,并行算法利用了Hadoop集群强大的计算能力,提高了从大数据集中挖掘关联规则的效率。通过实例分析了并行DHP算法的执行过程,在多个数据集上进行了实验。实验结果表明:并行DHP算法对大数据具有较好的加速比和可扩展性。 相似文献
8.
在微博搜索领域,单纯依赖于粉丝数量的搜索排名使刷粉行为有了可乘之机,通过将用户看作网页,将用户间的“关注”关系看作网页间的链接关系,使PageRank关于网页等级的基本思想融入到微博用户搜索,并引入一个状态转移矩阵和一个自动迭代的MapReduce工作流将计算过程并行化,进而提出一种基于MapReduce的微博用户搜索排名算法。在Hadoop平台上对该算法进行了实验分析,结果表明,该算法避免了用户排名单纯与其粉丝数量相关,使那些更具“重要性”的用户在搜索结果中的排名获得提升,提高了搜索结果的相关性和质量。 相似文献
9.
《计算机应用与软件》2017,(3)
面对越来越复杂的工程问题,单机上的有限元计算不能达到完全解决问题的程度,可以考虑利用新兴云计算技术来解决。设计合适的杆单元数据结构,提出基于MapReduce框架的线性有限单元法并行算法,包括总体刚度阵组装和CG法求解线性方程组。在6节点Hadoop实验集群上,通过大规模空间桁架结构进行数值验证。结果表明采用该算法求解大规模空间桁架结构简洁、易用;在总刚组装阶段,网格模型越大,计算节点越多,计算性能越好;但求解方程组阶段,计算性能不理想,有待改善。 相似文献
10.
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功.但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢.文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销.最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能.结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PgeRank标识网页等级显示其优越性. 相似文献
11.
为了解决传统K-Medoids聚类算法在处理海量数据信息时所面临的内存容量和CPU处理速度的瓶颈问题,在深入研究K-Medoids算法的基础之上,提出了基于MapReduce编程模型的K-Medoids并行化算法思想。Map函数部分的主要任务是计算每个数据对象到簇类中心点的距离并(重新)分配其所属的聚类簇;Reduce函数部分的主要任务是根据Map部分得到的中间结果,计算出新簇类的中心点,然后作为中心点集给下一次MapReduce过程使用。实验结果表明:运行在Hadoop集群上的基于MapReduce的K-Medoids并行化算法具有较好的聚类结果和可扩展性,对于较大的数据集,该算法得到的加速比更接近于线性。 相似文献
12.
在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率。 相似文献
13.
14.
MapReduce并行计算技术发展综述 总被引:1,自引:1,他引:1
经过几年的发展,并行编程模型MapReduce产生了若干个改进框架,它们都是针对传统MapReduce的不足进行的修正或重写. 本文阐述和分析了这些研究成果,包括: 以HaLoop为代表的迭代计算框架、以Twitter Storm为代表的实时计算框架、以Apache Hama为代表的图计算框架以及以Apache YARN为代表的框架管理平台. 这些专用系统在大数据领域发挥着越来越重要的作用. 相似文献
15.
方树峰 《计算技术与自动化》2012,31(1):89-92
通过分析PageRank算法存在的偏重旧网页问题、主题偏移问题及网页欺骗问题,提出一种基于用户反馈的PageRank改进算法,该算法在原算法的基础上添加用户点击次数反馈和点击时间反馈及反馈权重,并结合基于网页内容的排序算法思想,加入网页内容权重,对PR值的计算公式进行改进,从而克服PageRank算法中存在的问题。 相似文献
16.
基于Hadoop MapReduce模型的应用研究 总被引:4,自引:0,他引:4
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算.探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法. 相似文献
17.
随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率. 相似文献
18.
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。 相似文献