首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于 MapReduce 的关联规则增量更新算法   总被引:1,自引:0,他引:1  
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径.经典的关联规则增量更新算法FUP 需要频繁扫描原数据集,不适用于海量数据的处理.文中以提高海量数据上关联规则增量更新效率为目标,将 FUP算法与云计算的 MapReduce 编程模式相结合,提出了一种基于 MapReduce 的关联规则增量更新算法 MRFUP.该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力.基于 Hadoop 的实验结果表明,MRFUP 算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘  相似文献   

2.
近年来,计算机科学技术快速发展,在人们的生活、工作和学习中发挥着越来越重要的作用。计算机互联网的信息资源非常丰富,与此同时碎片化、海量的数据信息在很大程度上增加了人们获取有价值信息的成本和时间。当前云计算平台下的Web数据挖掘技术为海量数据信息的处理和分析提供了极大的便利,通过研究云计算平台下的Web数据挖掘,进一步完善和优化Web结构数据挖掘技术,降低大量数据信息存储和处理的成本,提高系统运行效率。本文简要介绍了云计算和Web数据挖掘,阐述了云计算平台下的Web数据挖掘系统。  相似文献   

3.
数据密集型计算编程模型研究进展   总被引:12,自引:0,他引:12  
作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统上研发了分布式编程系统.编程模型可以降低开发人员在大规模集群上编程的难度,并让程序充分利用集群资源,但设计这样的编程模型面临巨大挑战.首先说明了数据密集型计算的特点,并指出了编程模型要解决的基本问题;接着深入介绍了国际上代表性的编程模型,并对这些编程模型的特点进行了比较和分析;最后对当前所面临的问题和今后的发展趋势进行了总结和展望.  相似文献   

4.
电信经营分析系统承担着决策支撑的重要职能,面对越来越多的海量数据,如何有效处理这些海量数据从而提取有价值信息是面临的一大突出问题,利用云计算技术解决这些问题是一种新的有效的途径。针对电信经营分析系统中(简称BASS)现有存储、处理和ETL算法的不足,结合云计算技术提出了分布式海量数据存储、Hbase海量数据管理、Map/Reduce编程模式、以及基于拆分机制的海量数据处理(简称SMB-DP)算法和基于任务运行时间和优先级的ETL任务调度(简称AGB-ETL)贪婪算法,本文着重从这几个方面对现有经分系统进行改进和优化。  相似文献   

5.
采用文献分析的方法简述了云计算的定义、特点和工作原理;介绍了实现云计算的相关核心技术的研究现状,包括虚拟化技术、海量数据分布式存储技术、海量数据管理技术、编程模型;对已有的几个较有代表性的云计算系统进行了介绍并指出了当前云计算系统面临的挑战,以期为下一步的研究指明方向。  相似文献   

6.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

7.
文章介绍了云计算的产生和云计算的全新概念,分析了云计算的体系结构,然后总结了云计算的一些关键技术,像虚拟化技术、海量数据存储技术、海量数据管理技术、编程模式和云平台管理技术等,并指出了云计算带给人们的好处。  相似文献   

8.
为解决海量网络Web数据挖掘的瓶颈,分析了云计算和Web数据挖掘的关键技术,利用云计算在数据存储、数据管理、编程模式和虚拟化等方面的技术优势,构建了基于云计算的Web数据挖掘流程,为海量数据的挖掘及应用提供了新的思路和技术基础。  相似文献   

9.
本文分析了当前网络考试系统数据挖掘现状,介绍了云计算和数据挖掘的相关概念,指出传统数据挖掘技术在当今考试系统海量数据情况下挖掘时系统响应速度慢,负载不均衡和节点效率低的不足,设计了基于Map/Reduce并行编程模型的Apriori算法,利用云计算环境下计算资源来支持该算法的并行执行,通过实例说明云计算化后的Apriori算法在对海量考试数据进行挖掘时能获得更高的挖掘效率。  相似文献   

10.
随着教学平台数据的爆炸式增长,传统的教学平台在海量信息处理方面带来了较大的压力,对数据的存储、检索等关键技术提出了更高要求.在研究分析云计算领域的基础上,提出了利用Hadoop云计算框架解决教学平台中海量数据存储、检索的问题,优化了平台的数据存储和检索功能,并对平台做了系统的测试和验证.  相似文献   

11.
基于Hadoop的高性能海量数据处理平台研究   总被引:2,自引:0,他引:2  
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的CPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过 定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapReduce框架中,可高效处理海量数据。  相似文献   

12.
随着企业信息化在生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。采用最新的云计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统;针对运维控制系统中海量监控历史数据实时提取响应速度慢的缺点,设计并实现一种基于Hadoop的分布式海量数据处理模型。仿真实验证明,Hadoop在对云监控系统中的海量数据提取效率优于传统方法,随着数据量的快速增长,优势越明显。  相似文献   

13.
针对海量信息处理对传统的商业智能软件提出的挑战,设计并实现了一种基于并行机制的商务智能(BI)系统(BI-PaaS)。该系统搭建在中国移动大云基础设施之上, 以云计算的强大并行计算和分布式存储能力为支撑,将ETL、DM、OLAP、Report等各类BI能力并行化。实验结果表明,基于并行机制的BI-PaaS系统可以大大提高BI能力的数据处理性能,有效地支持电信运营的海量数据分析。  相似文献   

14.
针对传统海量数据存储和处理方法成本高、效率低、编写程序困难等缺点,该文搭建了基于Hadoop框架的云平台,设计和实现了基于Hadoop的校园教育资源管理系统。测试及实验结果表明,基于Hadoop的云平台在大数据和多用户并发访问环境下,系统运行稳定,数据处理快,能有效降低成本,较传统单机服务器具有明显优势,能够很好的在校园资源管理系统中得到应用。  相似文献   

15.
针对Hadoop平台MapReduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种MapReduce+OpenMP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明MapReduce+OpenMP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。  相似文献   

16.
不确定数据流上的Skyline查询技术逐步引起研究者的关注,传统的集中式流处理算法难以满足海量数据的查询需求,并且云计算所提供的海量计算资源和有效的存储管理模式,为研究并行Skyline查询技术提供了充足的条件。基于上述事实,提出了一种不确定数据流上的并行Skyline查询算法(parallel Skyline over uncertain data streams,PSUDS)。该算法通过交叉划分滑动窗口的方式,将集中式流查询转化为并行处理,以并行执行的方式来解决集中式算法处理性能不足的问题。大量实验结果表明,该算法具有较好的并行可扩展性。  相似文献   

17.
为解决传统电力系统中集中式计算平台海量数据流的存储和分析功能不足的问题,针对云计算在智能电网调度技术中的应用进行了研究。首先,对云计算技术在IT行业的发展进行阐述,对云计算的关键技术从虚拟化与快速部署技术、大规模分布式存储技术、资源调度技术、大规模多租户技术、海量数据处理技术以及大规模信息通信技术等方面出发进行介绍。其次,借鉴IT行业云计算技术,设计了基于云计算的智能电网计算平台以及基于云计算的智能电网互动式节能优化调度架构,以期推动云计算在电力系统中的发展,解决智能电网互动式节能优化调度算法方面的问题。  相似文献   

18.
Cloud computing offers massive scalability and elasticity required by many scientific and commercial applications. Combining the computational and data handling capabilities of clouds with parallel processing also has the potential to tackle Big Data problems efficiently. Science gateway frameworks and workflow systems enable application developers to implement complex applications and make these available for end-users via simple graphical user interfaces. The integration of such frameworks with Big Data processing tools on the cloud opens new opportunities for application developers. This paper investigates how workflow systems and science gateways can be extended with Big Data processing capabilities. A generic approach based on infrastructure aware workflows is suggested and a proof of concept is implemented based on the WS-PGRADE/gUSE science gateway framework and its integration with the Hadoop parallel data processing solution based on the MapReduce paradigm in the cloud. The provided analysis demonstrates that the methods described to integrate Big Data processing with workflows and science gateways work well in different cloud infrastructures and application scenarios, and can be used to create massively parallel applications for scientific analysis of Big Data.  相似文献   

19.
张钧波  李天瑞  潘毅  罗川  滕飞 《软件学报》2015,26(5):1064-1078
日益复杂和动态变化的海量数据处理,是当前人们普遍关注的问题,其核心内容之一是研究如何利用已有的信息实现快速的知识更新.粒计算是近年来新兴的一个研究领域,是信息处理的一种新的概念和计算范式,主要用于描述和处理不确定的、模糊的、不完整的和海量的信息,以及提供一种基于粒与粒间关系的问题求解方法.作为粒计算理论中的一个重要组成部分,粗糙集是一种处理不确定性和不精确性问题的有效数学工具.根据云计算中的并行模型MapReduce,给出了并行计算粗糙集中等价类、决策类和两者之间相关性的算法;然后,设计了用于处理大规模数据的并行粗糙近似集求解算法.为应对动态变化的海量数据,结合MapReduce模型和增量更新方法,根据不同的增量策略,设计了两种并行增量更新粗糙近似集的算法.实验结果表明,该算法可以有效地快速更新知识;而且数据量越大,效果越明显.  相似文献   

20.
从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统.首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性.在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率.最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台.测试结果表明,检测系统运行高效,并且检测精度高,具有一定的实用性和推广价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号