首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
基于网格与分形维数的聚类算法   总被引:1,自引:0,他引:1  
提出了一种基于网格和分形维数的聚类算法,它结合了网格聚类和分形聚类的优点,克服了传统网格聚类算法聚类质量降低的缺点,改进了分形聚类耗时较大的问题。此算法首先根据网格密度得到初始类别,再利用分形的思想,将未被划分的网格依次归类。实验结果证明,它能够发现任意形状且距离非邻近的聚类,且适用于海量、高维数据。  相似文献   

2.
云计算环境下数据弱关联挖掘模型的仿真   总被引:1,自引:0,他引:1  
在对云计算环境下海量数据进行挖掘的过程中,容易出现大量冗余数据,造成数据间关联性降低,导致传统的基于模糊神经网络的云计算环境下海量数据中弱关联.由于容易陷入局部最小,无法有效完成弱关联的挖掘,提出一种采用弱聚类算法的云计算环境下海量数据中弱关联挖掘方法,通过数据的描述特征对数据特征进行分解,依据数据特征,对全部数据进行融合.基于关联决策概率将云计算环境下海量数据进行有效划分,完成所有数据特征关联概率的计算,通过弱聚类方法对属性元素进行分类,将数量型元素转换成类别型,通过弱化关联规则方法,对经聚类处理后的数据进行挖掘.实验结果表明,所提方法具有很高的高效性及有效性.  相似文献   

3.
针对传统聚类融合算法不能消除劣质聚类成员的干扰,以及聚类准确性不高等问题,提出一种基于分形维数的选择性聚类融合算法.该算法实现增量式聚类,能够发现任意形状的聚类.通过基于互信息计算权值的选择策略,选取部分优质聚类成员,再利用加权共协矩阵实现融合,获得最终的聚类结果.实验证明,与传统聚类融合算法相比,该算法提高了聚类质量,具有较好的扩展性.  相似文献   

4.
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径。经典的关联规则增量更新算法FUP需要频繁扫描原数据集,不适用于海量数据的处理。文中以提高海量数据上关联规则增量更新效率为目标,将FUP算法与云计算的MapReduce编程模式相结合,提出了一种基于MapReduce的关联规则增量更新算法MRFUP。该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力。基于Hadoop的实验结果表明,MRFUP算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘。  相似文献   

5.
基于 MapReduce 的关联规则增量更新算法   总被引:1,自引:0,他引:1  
云计算以其强大的存储和计算能力而成为解决海量数据挖掘问题的有效途径.经典的关联规则增量更新算法FUP 需要频繁扫描原数据集,不适用于海量数据的处理.文中以提高海量数据上关联规则增量更新效率为目标,将 FUP算法与云计算的 MapReduce 编程模式相结合,提出了一种基于 MapReduce 的关联规则增量更新算法 MRFUP.该算法只需扫描原数据集一次,并能充分利用云计算强大的存储和并行计算能力.基于 Hadoop 的实验结果表明,MRFUP 算法可提高对海量数据的处理能力和效率,适用于海量数据的关联规则挖掘  相似文献   

6.
一种新的数据流分形聚类算法   总被引:1,自引:1,他引:1       下载免费PDF全文
提出了基于分形的数据流聚类算法,利用分形维数的变化程度来度量数据点与聚类的自相似程度,在噪音干扰下能发现反映数据流自然聚集状态的任意形状的聚类。实验证明,FClustream算法是一种高效的数据流聚类算法。  相似文献   

7.
文章针对电网运行产生的数据呈爆炸式增长,EMS系统有效信息往往淹没在海量数据中这一问题,提出一种云计算模式下的聚类分析处理方法,基于Hadoop平台的Map Reduce计算模型与分布式文件存储,将系统聚类法进行拆分,在云环境中对多个计算模块进行并行分析。作为试验性验证,提取某大用户近三年的负荷特征曲线,选取不同数据量、不同节点数,进行算法加速比的测试。结果表明,在云计算架构中该算法可以有效提高计算效率,适用于电力系统海量数据的挖掘分析。  相似文献   

8.
针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDk-means (Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统K-means算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能.  相似文献   

9.
一种优化的基于网格的聚类算法   总被引:5,自引:0,他引:5  
聚类是数据挖掘领域中一个重要的研究课题.与其它算法相比,基于网格的聚类算法可以高效处理低维的海量数据.然而,由于划分的单元数与数据的维数呈指数增长,因此对于维数较高的数据集,生成的单元数过多,导致算法的效率较低.本文基于CD—Tree设计了新的基于网格的聚类算法,该算法的效率远高于传统的基于网格聚类算法的效率.此外,本文设计了一种剪枝优化策略,以提高算法的效率.实验表明,与传统的聚类算法相比,基于CD-Tree的聚类算法在数据集的大小及维度的可伸缩性方面均有显著提高.  相似文献   

10.
曹泽文  周姚 《计算机工程》2012,38(24):14-16
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在 Hadoop平台上进行实验验证。实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能。  相似文献   

11.
基于云计算平台Hadoop的并行k-means聚类算法设计研究   总被引:2,自引:0,他引:2  
随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临 许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算 法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、 扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。  相似文献   

12.
传统的并行属性约简算法通过利用抽样技术获取小数据样本进行知识约简,但对于大数据集来说,样本数据不具有一般性且无法代表整个数据集.为了弥补传统并行属性约简算法只能用来计算最小属性约简、处理小数据集的缺陷,论文通过分析了先验知识在粒计算中的重要性,结合云计算技术处理海量数据的优势,以粗糙集理论为背景,从不同角度、层次出发建立层次粗糙集模型,提出基于云计算的层次粗糙集模型约简算法,讨论并实现了知识约简算法中的可并行化操作,利用Hadoop在普通计算机集群上进行试验,从运行时间、加速比、可扩展性三个方面对所提出基于正区域、信息熵、边界域算法的重要性进行评价.实验证明:基于云计算的层次粗糙集模型约简算法可以有效处理大数据集.  相似文献   

13.
随着海量大数据的出现,聚类算法需要新型计算模式来提高计算速度与运行效率。本文提出一种基于动态双子种群的差分进化K中心点聚类算法DGP-DE-K-mediods(Dynamic Gemini Population based DE-K-mediods)。DGP-DE-K-mediods利用动态双子种群方法,解决聚类算法在维持种群密度的时候避免陷入局部最优的问题;采用差分进化(Differential Evolution, DE)算法来提高全局最优能力的强健性;基于Hadoop云平台来并行处理DGP-DE-K-mediods,加快算法的运行速度和效率;描述基于MapReduce的并行聚类算法的编程过程;DGP-DE-K-mediods利用UIC的大数据分类的案例数据和网络入侵检测这种大数据应用来仿真算法的效果。实验结果表明,与已有的聚类算法相比,DGP-DE-K-mediods在检测精度、运行时间上有明显的优势。  相似文献   

14.
针对大数据安全以及混沌加密安全性等问题,提出了一种基于云计算模型的分数阶超混沌系统的加密算法。首先选取了两个分数阶超混沌系统的初始值作为密钥参数,基于分数阶混沌生成用于加密的伪随机序列,进而提出了一个结合云计算MapReduce并行数据处理模型的加密算法。在MapReduce并行加密方面,依次进行分块、Map并行加密和Reduce数据归并等操作。为了抵御明文类的密码攻击,算法中采用与明文特征关联的混沌序列生成方法。最后,在云计算实验环境中的实验结果表明,该算法的密钥空间达到372 bit,能够有效抵御明文类的密码攻击,具有密钥高度敏感的特性。同时,实验结果验证了云计算MapReduce并行加密的有效性。  相似文献   

15.
张磊  王鹏  黄焱  陈冬晓  郭又铭 《计算机科学》2013,40(2):84-86,111
提出并实现了一种基于热力学相空间的云计算集群仿真系统设计方法。将云计算集群节点信息投影到相空间,构建云计算系统的相空间分析模型,将云计算集群节点的参数变化转变为其在相空间投影点的运动,并通过相空间的宏观热力学参数反映云计算集群的整体状态,为云计算核心调度算法的研究和云计算数据中心的运行测试提供了仿真测试平台和衡量标准。实验结果表明,全新构建的云计算仿真系统的仿真实验环境搭建简单,仿真结果能够直观、全面地反映出云计算集群的整体状态和调度算法性能等。  相似文献   

16.
云计算环境中,飞速增长的海量数据的安全性越来越受到关注,分组密码算法是保证海量数据安全性的一个有效手段,但面对超大规模的数据量其效率是一个备受关注的问题。提出了一种基于MapReduce架构的并行分组密码机制,能够使标准的分组密码算法应用于大规模的集群环境中,通过并行化来提高海量数据加密与解密的执行效率,并设计了常用的几种并行工作模式。实验证明,提出的算法具有良好的可扩展性和高效的执行性能,能够适用于云计算环境中海量数据的安全保密,为进一步的研究工作奠定了基础。  相似文献   

17.
基于Hadoop的Web日志挖掘   总被引:3,自引:0,他引:3       下载免费PDF全文
程苗  陈华平 《计算机工程》2011,37(11):37-39
基于单一节点的数据挖掘系统在挖掘Web海量数据源时存在计算瓶颈,针对该问题,利用云计算的分布式处理和虚拟化技术的优势,设计一种基于云计算的Hadoop集群框架的Web日志分析平台,提出一种能够在云计算环境中进行分布式处理的混合算法。为进一步验证该平台的高效性,在该平台上利用改进后的算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,在集群中运用分布式算法处理大量的Web日志文件,可以明显提高Web数据挖掘的效率。  相似文献   

18.
瞿原  邓维斌  胡峰  张其龙  王鸿 《计算机科学》2018,45(1):97-102, 107
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。  相似文献   

19.
针对云计算环境中的数据安全问题,提出了一种基于云计算的混合超混沌加密算法。首先,选取三个超混沌系统的初始值作为密钥参数,利用超混沌系统更加复杂的动力学行为产生随机特性良好的混沌序列;接着,对三个超混沌系统进行预处理后,进而设计一个混合超混沌分组加密方案;最后,基于MapReduce的云计算分布式编程模型,设计并行超混沌加密算法。实验结果和分析表明,算法具有执行效率高,密钥空间大及密钥敏感性良好的特性。  相似文献   

20.
针对提高异构云平台中资源调度的效率,提出了一种基于任务和资源分簇的异构云计算平台任务调度方案。利用K-means算法,根据任务的CPU和I/O处理时间对任务分簇,根据资源的计算能力对资源分簇;然后,将任务簇对应到合适的资源簇,并利用最早截止时间优先(EDF)算法对任务簇中的独立任务进行调度,利用提出的改进型最小关键路径(MCP)算法对依赖性任务进行调度。实验结果表明,在资源异构的云计算环境中,该方案执行任务时间短、能耗低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号