首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 570 毫秒
1.
《信息与电脑》2019,(23):22-23
为实现高效、快速、准确的信息挖掘,笔者设计了一种云计算数据库中集成化数据智能挖掘算法,通过研究基于MapReduce的云计算平台集成化数据智能挖掘技术,对yarn云计算的智能挖掘算法架构进行划分,完成对集成化数据的映射归约,利用HDFS编程构建模型。实验结果表明:运用MapReduce的云计算可以更高效、精准地完成集成化数据智能挖掘。  相似文献   

2.
李玲娟  张敏 《微机发展》2011,(2):43-46,50
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值。针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapReduce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性。  相似文献   

3.
随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth算法进行了改进,通过MapReduce编程模型对改进的PFP-Growth算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集。实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。  相似文献   

4.
频繁模式挖掘是一种非常有效的从数据中获取知识的方法,但是随着大数据时代的来临,现有算法及其计算环境的运算速度、内外存容量面临严峻挑战。针对以上问题,本文紧密结合MapReduce模型提供的高效分布式编程和运行框架,在深入分析H-mine频繁模式挖掘算法的基础上,通过对H-mine算法频繁模式挖掘过程的并行化改进,提出了一种新颖的基于MapReduce模型的H-mine算法(简称:MRH-mine)。MRH-mine算法实现了对H-mine算法在分布式运行环境下的改造,实验表明该算法在面对数据大规模增长的情况下,具有良好的性能和扩展性。  相似文献   

5.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

6.
大数据下不完备信息系统近似空间的并行算法   总被引:1,自引:0,他引:1  
上、下近似空间是粗糙理论的重要概念,解决上、下近似问题是海量数据挖掘的基础。经典的近似空间算法不适合处理海量数据,更不适合处理带缺失信息的海量数据问题。为此,通过深度分析带缺失信息的海量数据特征,结合MapReduce编程模型,提出了基于MapReduce框架下近似空间的并行算法,以处理带缺失信息的海量数据,实验结果表明了该并行算法的有效性。  相似文献   

7.
不确定数据集中频繁模式挖掘的研究热点之一是挖掘算法的时空效率的提高,特别在目前数据量越来越大的情况下,实际应用对挖掘算法效率的要求也更高。针对动态不确定数据流中的频繁模式挖掘模型,在算法AT-Mine的基础上,给出一个基于MapReduce的并行挖掘算法。该算法需要两次MapReduce就可以从一个滑动窗口中挖掘出所有的频繁模式。实验中,多数情况下通过一次MapReduce就可以挖掘到全部频繁项集,并且能按数据量大小均匀地把数据分配到各个节点上。实验验证了该算法的时间效率能提高1个数量级。  相似文献   

8.
云计算环境下关联规则挖掘算法的研究   总被引:2,自引:0,他引:2  
云计算为存储和分析海量数据提供了廉价高效的解决方案,云计算环境下的数据挖掘算法的研究具有重要的理论意义和应用价值.针对云计算环境下的关联规则挖掘算法展开研究,介绍了云计算的概念、Hadoop框架平台、MapRe-duce编程模型和传统的Apriori算法;在此基础上,以实现云计算环境下的并行化数据挖掘为目的,对Apriori算法进行了改进,给出了改进的算法在Hadoop中的MapReduce编程模型上的执行流程;通过一个简单的频繁项集挖掘实例展示了改进的算法的执行效率及实用性.  相似文献   

9.
通过研究各种决策树分类算法的并行方案后,并行设计C4.5算法.同时根据Hadoop云平台的MapReduce编程模型,详细描述C4.5并行算法在MapReduce编程模型下的实现及其执行流程.最后,对输入的海量文本数据进行分类,验证了算法的高效性和扩展性.  相似文献   

10.
Coterie是一种异步的组模式,要求在不等时间间隔约束下找出具有相似轨迹行为的组模式.而传统的轨迹组模式挖掘算法往往处理具有固定时间间隔采样约束的GPS数据,因此无法直接用于Coterie模式挖掘.同时传统组模式挖掘存在语义信息缺失问题,降低了个性化旅游路线推荐的完整度和准确度.为此,提出基于语义的距离敏感推荐策略(DRSS)和基于语义的从众性推荐策略(CRSS).此外,随着社交网数据规模的不断增大,传统组模式聚类算法的效率受到了极大挑战,因此,为高效处理大规模社交网轨迹数据,使用带有优化聚类的MapReduce编程模型来挖掘Coterie组模式.实验结果证明,MapReduce编程模型下带优化聚类和语义信息的Coterie组模式挖掘,在个性化旅游路线推荐上优于传统组模式旅游路线推荐质量,且能有效处理大规模社交网轨迹数据.  相似文献   

11.
曹泽文  周姚 《计算机工程》2012,38(24):14-16
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在 Hadoop平台上进行实验验证。实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能。  相似文献   

12.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

13.
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。  相似文献   

14.
动车组作为一种高速、安全的铁路客运设备,在运营过程中难免发生故障。针对动车组故障数据量巨大、价值密度低的特点,设计一种基于DHP算法的关联规则挖掘优化算法。采用再哈希技术解决DHP算法中的哈希冲突,提出RDHP算法。本算法可以百分百地过滤非频繁项集,无需额外的数据库扫描。为了进一步提高算法的效率,基于MapReduce编程思想,提出MR-RDHP算法,把海量动车组故障数据关联规则挖掘任务分解到集群中的多台计算机上并行处理。实验表明,MR-RDHP算法具有很好的时间性能,且挖掘出的规则可以有效指导动车组运行维修。  相似文献   

15.
庞俊  于戈  许嘉  谷峪 《计算机科学》2015,42(1):1-5,27
海量数据相似性连接作为海量数据处理的基本操作,在文本聚类、剽窃检测、实体解析等研究领域具有重要作用.另一方面,MapReduce编程模型因为具有良好的可扩放性、容错性和易用性,被广泛地应用于海量数据处理.因此,基于MapReduce框架的海量数据相似性连接查询技术成为海量数据处理领域的热点问题之一.首先,概括了海量数据固有特点和MapReduce编程框架的缺陷给现有相似性连接查询技术带来的巨大挑战;其次,提出了海量数据相似性连接的定义,按3种不同的分类标准对其进行了分类;接着,重点分析了集合、字符串和向量数据类型的海量相似性连接查询最新技术,并从效率和适用范围等方面分别对这些技术进行了比较;最后,讨论了海量数据相似性连接查询技术亟待解决的关键问题,并提出了一些有前景的解决方案.  相似文献   

16.
黄鑫  罗军 《集成技术》2013,2(2):69-82
数据的快速增长,为我们提供了更多的信息,然而,也对传统信息获取技术提出了挑战。这篇论文提出了MCMM算法,它是基于MapReduce的大规模数据分类模型的最小生成树(MST)的算法。它可以看做是介于传统的KNN方法和基于聚类分类方法之间的模型,旨在克服这两种方法的不足并能处理大规模的数据。在这一模型中,训练集作为有权重的无向完全图来处理。顶点是对象,两点之间边的权重是对象间的距离。这一距离,不同于欧几里得距离,它是一个特定的距离度量。这样,可以找到图中最小生成树集,其中,图中每棵树代表一个类。为了降低时间复杂度,提取了每棵树中最具代表性的点来代表该树。这些压缩了的点集,可以通过计算无标签对象和它们之间的距离,来进行分类。MCMM模型基于MapReduce实现并且部署在Hadoop平台。该模型可扩展处理大规模的数据,是因为Hadoop支持数据密集分布应用,并且这些应用可以和数以千计的节点和数据一起运作。另外,MapReduce 和Hadoop能在由商品机组成的集群上很好的运行。MCMM模型使用云平台并且通过使用MapReduce 和Hadoop进行云计算是有益处的。实验采用的数据集包括从UCI数据库得到的真实数据和一些模拟数据,实验使用了4000个集群。实验表明,MCMM模型在精确度和扩展性上优于KNN和其他一些经常使用的基础分类方法。  相似文献   

17.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

18.
基于启发式函数的分布式FN 算法   总被引:1,自引:0,他引:1  
对复杂网络进行社团挖掘和分析是很多领域和学科的重要问题,结合海量数据通联矩阵稀疏的特点,提出了一种基于启发式函数合并的快速社团挖掘算法KFN算法,并建立了算法的MapReduce模型.通过对DBLP论文合著网络数据集进行挖掘可知,分布式模型和基于启发式函数的合并策略能够提高社团挖掘的时间效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号