首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 12 毫秒
1.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

2.
大数据聚类算法综述   总被引:1,自引:0,他引:1  
海沫 《计算机科学》2016,43(Z6):380-383
随着数据量的迅速增加,如何对大规模数据进行有效的聚类成为挑战性的研究课题。面向大数据的聚类算法对传统金融行业的股票投资分析、互联网金融行业中的客户细分等金融应用领域具有重要价值。对已有的大数据聚类算法进行了详细划分,并比较了每种聚类算法的优缺点,进一步总结了已有研究存在的问题,最后对未来的研究方向进行了展望。  相似文献   

3.
传统谱聚类算法存在聚类效果差的缺陷,为此提出基于小波分析的网络通信大数据谱聚类算法研究。采用小波分析方法对采集到的电网通信网络大数据的相异性进行度量,将得到的相异性度量结果转换为数据之间的相似性,并对网络通信大数据相似性关系进行构建,得到网络通信大数据的相似度矩阵,以上述得到的网络通信大数据相似度矩阵为基础,采用聚类算法对数据进行聚类,实现了网络通信大数据的谱聚类。通过实验可得,提出的谱聚类算法的准确率与纯度分别高出传统算法34%与21.2%,说明提出的基于小波分析的谱聚类算法具备极好的聚类效果。  相似文献   

4.
针对当前关联性数据在聚类后聚类结果与对应聚类簇之间距离过大,聚类簇本身聚类纯度较低等影响聚类质量的问题,开展相关研究。通过构建关联性大数据实时流式可控聚类框架、可控粗聚类、可控细聚类,提出一种全新的聚类算法。实验结果表明,新的聚类算法聚类结果与对应聚类簇的距离平方和数值更小,聚类簇本身聚类纯度更高,进一步提升聚类结果的质量,实现对关联性大数据的高效利用。  相似文献   

5.
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。  相似文献   

6.
7.
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。  相似文献   

8.
为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题。实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析。  相似文献   

9.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。  相似文献   

10.
工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大。文章基于生成式对抗网络(Generative Adversarial Network,GAN),提出一种GAN-Cross采样模型,该模型可以学习目标数据的概率分布,并生成相似概率分布的数据,从而改善数据的平衡性。同时,文章在生成器和判别器中增加了交叉层,从而更好地实现特征提取。最后文章将该模型与随机森林、K-近邻、高斯朴素贝叶斯和支持向量机4种经典分类器进行组合,在4个公开类不平衡数据集上与其他4种常规采样方法进行比较。实验结果表明,与传统采样方法相比,该模型能够显著提高分类器对类不平衡数据的异常检测能力。  相似文献   

11.
随着大数据技术的不断发展,医疗大数据的研究也成为我国医疗建设的重要一环,聚类能够挖掘出医疗大数据中潜在隐藏的信息,协助医生、医疗管理部门、科研所进行有效工作.研究分析聚类算法K-means和K-medoids在医疗大数据的应用,从优化聚类算法降低时间复杂度、对高维医疗大数据进行特征提取降低维度、通过并行处理平台加速医疗数据的处理速度方面出发,阐明聚类算法在医疗大数据的数据预处理、数据分类、疾病预测等方面都广泛的应用.随着并行处理平台的建设,聚类算法在医疗大数据的应用也将越来越广泛.  相似文献   

12.
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络.针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法.根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销.使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性.  相似文献   

13.
信息过载问题使得推荐系统迅速发展并广泛应用,同时也出现不法商家将虚假消费记录定量地输入到系统数据库从而改变推荐系统的推荐结果以获利.因此,本文围绕3个问题展开,即:为了提高推荐系统对虚假评论的鉴别能力,首先需要准确标注虚假评论的类标,如何能获取大量准确标定的虚假评论信息;如何有效过滤虚假评论从而提高推荐的可靠性;如何实现一种高效可靠的推荐系统.针对虚假评论信息难以准确标定,本文提出了一种基于文本生成式对抗网络的自动点评技术,依据历史评论文本自动生成虚假评论文本,并依据情感分析确定生成文本的对应评分;为了提高推荐系统对包含虚假信息数据的推荐效果,本文提出了一种基于图过滤的快速密度聚类双层网络推荐算法.该算法首先提出了一种能快速确定节点执行度阈值的基于图的过滤器,有效过滤数据内虚假信息,并设计了一种快速密度聚类双层网络推荐算法,提高推荐效果.将所提出的推荐算法应用到Yelp数据集上展开试验,验证本文提出的推荐方法的有效性.  相似文献   

14.
为了能在大数据集中合理地寻找到网络结构,提出了一种适用于大数据集的通过局部核心节点进行社区发现的算法。对于初始节点不确定和适应度函数计算所带来的时间消耗,引入局部关键节点和对适应度公式进行改进来减少时间消耗。并在小规模数据网络和较大规模数据网络中与经典算法进行实验,由实验结果得出,在小规模的数据集中,本算法与经典算法效率相差不大,在测试数据集的规模不断变大的情况下,本算法执行效率明显提高。测试结果表明,本算法是可行和有效的,适用于大规模数据的网络结构发现。  相似文献   

15.
在大数据时代,针对CLUBS算法较高的计算复杂度导致训练效率低下的问题,提出一种面向大规模数据的并行聚类算法CLUBS‖,通过将CLUBS算法的思想融入MapReduce并行计算框架,实现数据的并行处理,提高算法的计算效率,从理论上对几个关键计算的并行化进行较为深入的分析,基于Ad-hoc消息传递对该算法进行实现.实验...  相似文献   

16.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

17.
在信息技术的进步下,人们的联系也开始变得更加方便,真正地实现了交流方式快捷便利.在这样的背景下,大数据、云计算等领域都得到了大力的提升.大数据规模的逐渐扩大,让数据在被有效地分析、处理中遇到了挑战,而多维数据去重聚类算法的应用使得数据更好地被分析,降低了采样的复杂度并让数据被分析的准确度有所上升.本文对多维数据在大环境...  相似文献   

18.
程宁  李超 《传感技术学报》2023,(8):1316-1322
大数据聚类在无线传感网络数据处理领域中具有重要意义,但是大数据聚类方法存在聚类效果不佳、Jaccard系数较低等问题,提出基于粒子群算法的无线传感网络大数据优化方法。该方法结合主成分分析方法和信息熵降维处理大数据,减少数据聚类所需的时间,采用直觉模糊核聚类算法聚类大数据,引入粒子群算法,优化直觉模糊核聚类方法,利用优化后的算法获得无线传感网络大数据聚类的优化结果,实现大数据聚类。仿真分析结果表明,所提方法的聚类效果较好,Jaccard系数在0.70以上,数据平均熵仅为0.36,并且时间复杂度仅为26.3%,该方法的应用价值更高。  相似文献   

19.
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用k-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下有效降低了聚类的花费时长,提高了算法的聚类性能,证明该数据集压缩算法在聚类分析中的有效性与可靠性。  相似文献   

20.
在旅游预测的背景下定义大数据,总结了它给旅游业务决策带来的变化.实验部分处理网站共享的旅游元数据,应用合适的聚类算法生成游客最常访问地方的密度模式,并进行回归分析以得出对该旅游行为进行分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号