首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 343 毫秒
1.
基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后,建立了一个基于Hadoop开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率.  相似文献   

2.
云计算从分布式存储和分布式计算两个方面为大数据处理提供了强力的支持,并逐渐成为大数据挖掘的主流平台。但是在处理云平台中的大规模数据集时典型聚类挖掘算法存在一定不足,因此,提出一种基于群智能算法的大数据K-means聚类挖掘算法。首先对云计算Hadoop框架的存储数据能力和采用的Map Reduce计算模型进行分析,然后采用群智能算法对传统数据挖掘K-means聚类算法进行改进,解决其容易陷入局部最优问题。实验结果表明,相比加权K-means聚类算法,提出的改进算法表现出更好的聚类精度和运行速度,可以适用于大规模数据的聚类挖掘。  相似文献   

3.
《信息技术》2017,(4):129-131
数据信息交流和社交方式在互联网+时代都呈现了新的发展态势,自媒体等新的数据产生方式让大数据时代来临。海量数据在大数据时代需要新的技术手段和方法,对数据存储、处理、检索和计算进行新的设计,尤其在数据挖掘领域,面临很多新的课题和挑战。当前,很多的传统数据挖掘算法只能在数据量较小的情况下适用,在串行的小规模输入数据环境下,算法还能适应。当数据量规模增大甚至呈指数形式增长时,时间复杂度和计算量也同步增长,需要对算法进行适应大数据的改进。云计算和云平台的使用为存储和分析海量数据提供可靠的实现手段,对数据挖掘算法的改进提供了高效的解决方案。文中在Hadoop、MapReduce框架下开展并行的SLIQ算法改进方案,改进算法很好地适应了云平台环境和海量数据,提高了运行效率。  相似文献   

4.
《信息技术》2015,(9):162-165
在当前处理大数据集的需求下,针对关联规则数据挖掘传统Apriori算法的不足,提出基于云计算平台并引入矩阵概念的一种改进算法,通过改进以减少传统Apriori算法的I/O负担严重、候选集数量巨大等问题,使其更好地适应大数据的频繁项集数据挖掘。  相似文献   

5.
《现代电子技术》2019,(21):36-40
为了应对大数据环境下图书馆个性化信息服务的发展趋势,提供更加精准的用户服务,构建基于Hadoop云计算平台的图书馆数据挖掘系统,并设计一种新型混合决策树算法。首先,设计包含4个层次的数据挖掘系统架构。然后,在算法层提出一种采用混合策略的决策树算法,该算法结合分布式改进的SPRINT算法和并行化的朴素贝叶斯算法,以便满足HDFS和MapReduce的运作方式,从而能够在Hadoop平台上进行实现。Hadoop集群环境的用户信息测试结果表明,相比单一的SPRINT算法和朴素贝叶斯算法,提出的新型混合决策树算法具有最佳的数据挖掘分类性能。  相似文献   

6.
文中在频繁项目集挖掘研究的基础上,针对Hadoop分布式计算框架,提出了一种基于子集的Apriori并行改进算法Sub Apr。该算法扫描数据库两次,将分块数据分配给不同的Hadoop计算节点进行处理,利用Apriori特性并结合MapReduce框架自身特点进行剪枝。该算法与同类算法比较,可以减少各个计算节点的存储数据,达到减少候选项集输出,有效减少了大数据集挖掘过程中产生的大量数据通信,从而提高并行挖掘的效率。实验结果表明,该算法是有效且可行的。  相似文献   

7.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要.  相似文献   

8.
《现代电子技术》2015,(11):123-125
自云计算技术出现之后,数据挖掘技术取得了突破性发展。数据挖掘系统不仅实现了低成本、高效率运行,并且系统储存空间和系统可扩展性也在不断扩大,大大提高了数据挖掘效率。这里简要阐述了基于云平台的并行关联规则挖掘算法分析的研究意义,并对基于Hadoop的数据挖掘系统和数据算法设计进行了详细介绍。  相似文献   

9.
针对挖掘图书借阅记录中蕴含价值的问题,以图书分类号作为图书特征,给出了结合Apriori的频繁项集挖掘算法。针对海量图书借阅记录难以处理的问题,将频繁项集挖掘算法融入Hadoop大数据平台,设计了基于Hadoop的频繁项集挖掘算法,有效解决了数据存储和并行处理的问题。实验结果表明,部分图书之间的关联程度高。  相似文献   

10.
《无线电工程》2017,(3):8-11
随着云计算时代的到来,云计算为海量数据的挖掘分析提供了一种新的技术途径,能够有效地解决传统数据挖掘方法不能适应海量数据挖掘的问题。介绍了云计算的含义和特点,分析了运用云计算技术实现数据挖掘的优势,设计了基于MapReduce并行处理架构的关联规律挖掘算法,并开展了试验验证。试验结果表明,基于云计算平台的并行关联规律挖掘算法能够极大地提高数据挖掘的执行速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号