共查询到20条相似文献,搜索用时 125 毫秒
1.
基于 MapReduce 的关联规则增量更新算法 总被引:1,自引:0,他引:1
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径.经典的关联规则增量更新算法FUP 需要频繁扫描原数据集,不适用于海量数据的处理.文中以提高海量数据上关联规则增量更新效率为目标,将 FUP算法与云计算的 MapReduce 编程模式相结合,提出了一种基于 MapReduce 的关联规则增量更新算法 MRFUP.该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力.基于 Hadoop 的实验结果表明,MRFUP 算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘 相似文献
2.
近年来,计算机科学技术快速发展,在人们的生活、工作和学习中发挥着越来越重要的作用。计算机互联网的信息资源非常丰富,与此同时碎片化、海量的数据信息在很大程度上增加了人们获取有价值信息的成本和时间。当前云计算平台下的Web数据挖掘技术为海量数据信息的处理和分析提供了极大的便利,通过研究云计算平台下的Web数据挖掘,进一步完善和优化Web结构数据挖掘技术,降低大量数据信息存储和处理的成本,提高系统运行效率。本文简要介绍了云计算和Web数据挖掘,阐述了云计算平台下的Web数据挖掘系统。 相似文献
3.
数据密集型计算编程模型研究进展 总被引:12,自引:0,他引:12
作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统上研发了分布式编程系统.编程模型可以降低开发人员在大规模集群上编程的难度,并让程序充分利用集群资源,但设计这样的编程模型面临巨大挑战.首先说明了数据密集型计算的特点,并指出了编程模型要解决的基本问题;接着深入介绍了国际上代表性的编程模型,并对这些编程模型的特点进行了比较和分析;最后对当前所面临的问题和今后的发展趋势进行了总结和展望. 相似文献
4.
电信经营分析系统承担着决策支撑的重要职能,面对越来越多的海量数据,如何有效处理这些海量数据从而提取有价值信息是面临的一大突出问题,利用云计算技术解决这些问题是一种新的有效的途径。针对电信经营分析系统中(简称BASS)现有存储、处理和ETL算法的不足,结合云计算技术提出了分布式海量数据存储、Hbase海量数据管理、Map/Reduce编程模式、以及基于拆分机制的海量数据处理(简称SMB-DP)算法和基于任务运行时间和优先级的ETL任务调度(简称AGB-ETL)贪婪算法,本文着重从这几个方面对现有经分系统进行改进和优化。 相似文献
5.
6.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。 相似文献
7.
8.
为解决海量网络Web数据挖掘的瓶颈,分析了云计算和Web数据挖掘的关键技术,利用云计算在数据存储、数据管理、编程模式和虚拟化等方面的技术优势,构建了基于云计算的Web数据挖掘流程,为海量数据的挖掘及应用提供了新的思路和技术基础。 相似文献
9.
本文分析了当前网络考试系统数据挖掘现状,介绍了云计算和数据挖掘的相关概念,指出传统数据挖掘技术在当今考试系统海量数据情况下挖掘时系统响应速度慢,负载不均衡和节点效率低的不足,设计了基于Map/Reduce并行编程模型的Apriori算法,利用云计算环境下计算资源来支持该算法的并行执行,通过实例说明云计算化后的Apriori算法在对海量考试数据进行挖掘时能获得更高的挖掘效率。 相似文献
10.
随着教学平台数据的爆炸式增长,传统的教学平台在海量信息处理方面带来了较大的压力,对数据的存储、检索等关键技术提出了更高要求.在研究分析云计算领域的基础上,提出了利用Hadoop云计算框架解决教学平台中海量数据存储、检索的问题,优化了平台的数据存储和检索功能,并对平台做了系统的测试和验证. 相似文献
11.
基于Hadoop的高性能海量数据处理平台研究 总被引:2,自引:0,他引:2
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的CPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过
定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapReduce框架中,可高效处理海量数据。 相似文献
12.
13.
14.
针对传统海量数据存储和处理方法成本高、效率低、编写程序困难等缺点,该文搭建了基于Hadoop框架的云平台,设计和实现了基于Hadoop的校园教育资源管理系统。测试及实验结果表明,基于Hadoop的云平台在大数据和多用户并发访问环境下,系统运行稳定,数据处理快,能有效降低成本,较传统单机服务器具有明显优势,能够很好的在校园资源管理系统中得到应用。 相似文献
15.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。 相似文献
16.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。 相似文献
17.
为解决传统电力系统中集中式计算平台海量数据流的存储和分析功能不足的问题,针对云计算在智能电网调度技术中的应用进行了研究。首先,对云计算技术在IT行业的发展进行阐述,对云计算的关键技术从虚拟化与快速部署技术、大规模分布式存储技术、资源调度技术、大规模多租户技术、海量数据处理技术以及大规模信息通信技术等方面出发进行介绍。其次,借鉴IT行业云计算技术,设计了基于云计算的智能电网计算平台以及基于云计算的智能电网互动式节能优化调度架构,以期推动云计算在电力系统中的发展,解决智能电网互动式节能优化调度算法方面的问题。 相似文献
18.
Shashank Gugnani Carlos Blanco Tamas Kiss Gabor Terstyanszky 《Journal of Grid Computing》2016,14(4):589-601
Cloud computing offers massive scalability and elasticity required by many scientific and commercial applications. Combining the computational and data handling capabilities of clouds with parallel processing also has the potential to tackle Big Data problems efficiently. Science gateway frameworks and workflow systems enable application developers to implement complex applications and make these available for end-users via simple graphical user interfaces. The integration of such frameworks with Big Data processing tools on the cloud opens new opportunities for application developers. This paper investigates how workflow systems and science gateways can be extended with Big Data processing capabilities. A generic approach based on infrastructure aware workflows is suggested and a proof of concept is implemented based on the WS-PGRADE/gUSE science gateway framework and its integration with the Hadoop parallel data processing solution based on the MapReduce paradigm in the cloud. The provided analysis demonstrates that the methods described to integrate Big Data processing with workflows and science gateways work well in different cloud infrastructures and application scenarios, and can be used to create massively parallel applications for scientific analysis of Big Data. 相似文献
19.
日益复杂和动态变化的海量数据处理,是当前人们普遍关注的问题,其核心内容之一是研究如何利用已有的信息实现快速的知识更新.粒计算是近年来新兴的一个研究领域,是信息处理的一种新的概念和计算范式,主要用于描述和处理不确定的、模糊的、不完整的和海量的信息,以及提供一种基于粒与粒间关系的问题求解方法.作为粒计算理论中的一个重要组成部分,粗糙集是一种处理不确定性和不精确性问题的有效数学工具.根据云计算中的并行模型MapReduce,给出了并行计算粗糙集中等价类、决策类和两者之间相关性的算法;然后,设计了用于处理大规模数据的并行粗糙近似集求解算法.为应对动态变化的海量数据,结合MapReduce模型和增量更新方法,根据不同的增量策略,设计了两种并行增量更新粗糙近似集的算法.实验结果表明,该算法可以有效地快速更新知识;而且数据量越大,效果越明显. 相似文献