首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
为了实现高效率低成本的海量数据挖掘,为企业决策提供参考,提出了基于云计算的海量数据挖掘模型。该模型中海量数据的处理和存储都是在云计算环境中进行的,首先对海量的数据进行一定的预处理,形成结构一致的数据后,应用云计算平台上的MapReduce模型进行高效的并行数据处理,最后得到所需的数据挖掘结果。基于云计算的海量数据挖掘的效率明显高于传统的数据挖掘,并且数据挖掘结果的准确性有了一定的提高,而且随着数据量的增多,该模型的优势会愈发明显。  相似文献   

2.
云计算为海量和复杂数据对象的数据挖掘提供了基础设施,为网络环境下面向大众的数据挖掘服务带来了机遇,基于云计算平台已经成为数据挖掘研究的一个重要方向.微软云计算平台是目前推出的较成熟的云计算平台,能够很快的部署云应用程序,该文提出了一种基于微软云计算平台的海量数据挖掘系统.  相似文献   

3.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

4.
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。  相似文献   

5.
在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。  相似文献   

6.
频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式。当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路。文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法。该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤。在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比。  相似文献   

7.
一个基于高性能机群系统的并行数据挖掘平台模型   总被引:1,自引:0,他引:1  
基于高性能机群系统建立并行数据挖掘平台,能够有效地提高数据挖掘算法的执行效率,提高对大量数据信息的处理能力,而且可以减少系统开发、升级及维护的费用,提高系统可伸缩性。文章从机群系统的特性出发,论述了基于高性能机群系统建立并行数据挖掘平台的目标、方法和实现技术,给出了一个合理可行的平台模型。  相似文献   

8.
从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统.首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性.在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率.最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台.测试结果表明,检测系统运行高效,并且检测精度高,具有一定的实用性和推广价值.  相似文献   

9.
随着数据量的不断增加,传统的数据处理方法已经无法满足现代大数据处理的需求。近年来,云计算作为一种新型的数据处理方法逐渐被广泛采用。在云计算背景下,K-means聚类算法是一个重要的数据挖掘工具,拥有广泛的应用场景,包括图像处理、文本分析等。但是,当数据量大到一定程度时,传统的K-means聚类算法存在计算效率低和内存占用过大的问题。文章介绍了一种基于云计算的并行K-means聚类算法设计方案,介绍了云计算的概念、云平台技术的应用、云计算平台对并行计算的支持。实验结果表明,K-means算法在处理大规模数据集时的运行时间较长,而采用云计算平台进行并行化计算可以有效提高算法的运行效率。  相似文献   

10.
刘胜久  李天瑞  贾真  珠杰 《计算机科学》2014,41(3):88-90,115
作为自然语言理解研究重点的句法分析一直受到人们的关注。针对现今句法分析方法效率低、准确度不高的问题,借助云计算计算能力强的优势,探讨了在云计算平台上实现并行中文句法分析的方法。利用公开的语料库及开源的句法分析工具在搭建的Hadoop云计算试验平台上实现并行中文句法分析,实验结果及理论分析均证实了所设计的基于Hadoop平台的并行句法分析方法的可行性、有效性与稳定性。  相似文献   

11.
网络技术在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了数据挖掘技术的出现和快速发展。云计算是能够提供动态资源池、虚拟化和高可用性的计算平台,云计算开发平台可被用来开发高性能应用程序。研究云计算环境下并行分布式数据挖掘平台的3个层次,依下而上为分布式计算层,知识发现平台层以及用户应用层。  相似文献   

12.
颜一鸣  郭鑫 《计算机工程》2014,(3):67-70,92
为适应真实环境中数据量大、流程复杂、计算密集的数据挖掘需求,提高传统树增量更新挖掘效率,改变已有算法的串行执行方式,提出一种基于Hadoop的动态树增量更新方法。介绍云计算、模型与执行流程等基本概念,针对现有Hadoop平台中任务调度的随机分配策略,设计一种动态云平台中的资源调度与分配算法,以期达到成本消耗的最小化,给出树增量更新挖掘算法以及2个并行算法(DeleteFreqTree和FindNewTree),完成树数据的增量挖掘工作。实验结果表明,该并行算法有效可行,具有高效性与良好的扩展率,能够对海量树数据进行更新挖掘。  相似文献   

13.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

14.
近年来,计算机科学技术快速发展,在人们的生活、工作和学习中发挥着越来越重要的作用。计算机互联网的信息资源非常丰富,与此同时碎片化、海量的数据信息在很大程度上增加了人们获取有价值信息的成本和时间。当前云计算平台下的Web数据挖掘技术为海量数据信息的处理和分析提供了极大的便利,通过研究云计算平台下的Web数据挖掘,进一步完善和优化Web结构数据挖掘技术,降低大量数据信息存储和处理的成本,提高系统运行效率。本文简要介绍了云计算和Web数据挖掘,阐述了云计算平台下的Web数据挖掘系统。  相似文献   

15.
云计算是未来企业信息化的发展趋势,在各行业中已有了一定的研究或应用,但在预拌混凝土行业还鲜有研究。针对预拌混凝土企业信息化建设中对数据存储、整合、挖掘等方面需求的不断提高,将云计算运用于建设预拌混凝土企业信息平台,提出了面向混凝土行业的云计算,以实现信息平台资源虚拟化、大数据存储与并行计算处理。结合Hadoop云计算技术,设计了云计算信息平台构架,给出了几种云计算下的应用模式,并通过实例验证了平台的可行性,分析了应用效果。  相似文献   

16.
大数据、云计算技术的迅猛发展为挖掘气象数据丰富的科研和经济价值提供了技术支撑,促进了Hadoop及其包含的文件存储系统(HDFS,Hadoop Distributed File System)和分布式计算模型在气象数据处理领域广泛应用。由于气象数据具有大数据的4V特征,还需要引入新的数据处理算法来提高气象数据处理效率。通过对决策树算法原理的研究,基于Hadoop云平台,创建随机森林模型,为数据挖掘算法在云平台上的应用提供一种新的可能性。基于决策树(CART,Classification And Regression Trees)挖掘算法的气象大数据云平台设计,采用Hadoop系统架构和MapReduce工作流程,对气象大数据云平台采用集群部署。平台总体架构分为基础设施层、数据管理与处理层、应用层,减少了决策树建立的时间,实现了气象数据高效加工和挖掘分析等平台功能。  相似文献   

17.
面向云计算的数据挖掘系统架构研究*   总被引:1,自引:0,他引:1  
随着计算机网络技术特别是云计算的发展,传统的数据挖掘系统已不能再适应新的变化了的情况。在基于云计算平台的数据挖掘系统解决方案尚未形成明确的框架情况下。结合当前数据挖掘系统的优缺点及云计算的优势,构建了一种面向云计算的数据挖掘系统架构,并对其中的重要组成模块进行了详尽地描述,该框架有利于解决当前数据挖掘系统存在的数据共享性差、扩展性低及价格昂贵等一系列问题;也不失为今后面向云计算平台的数据挖掘系统架构研究提供一定的参考性作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号