首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
为了改进Map Reduce早期版本在大数据聚类算法方面的性能,文章提出了基于Yarn(Yet Another Resource Negotiator)云计算平台与非负矩阵分解NMF(Nonnegative Matrix Factorization)的大数据聚类方法。文章讨论了高维数据相似性聚类与非负矩阵分解的结合及其面向Map Reduce的数据聚类的任务划分方式。该方法的实现采用Hadoop2.0的Yarn平台,利用Hadoop的HDFS(Hadoop Distributed File System)来存储大容量的外部数据;描述了基于NMF的大数据相似性聚类方法的编码与实现过程,并以电信运营商的大数据作为案例程序进行了测试。实验结果表明,Yarn云平台比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。  相似文献   

2.
基于NMF的文本聚类方法   总被引:4,自引:0,他引:4  
黄钢石  陆建江  张亚非 《计算机工程》2004,30(11):113-114,176
提出一种基于非负矩阵分解的文本聚类方法。该方法利用NMF分解项-文本矩阵来降低特征空间维数,并得到文本向量在概念空间上的表示,在此基础上应用聚类算法。实验表明,基于NMF的文本聚类方法能够提高文本聚类精度。  相似文献   

3.
张蓉  袁宏 《计算机工程》2002,28(8):88-89,110
把求解数据聚类问题转换为一个图形分割寻优问题,提出一种基于快速分解模拟退火算法的数据聚类算法。实验结果表明,快速分解模拟退火算法退火时间短、收敛速度快, 磁盘I/O开销小,把它应用于数据聚类中,可以获得较好的聚类结果。  相似文献   

4.
5.
张石磊  武装 《计算机科学》2012,(Z2):115-118
随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证明该优化算法具有更好的时间性、正确性和稳定性,适合于海量数据的分析和处理。  相似文献   

6.
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大.  相似文献   

7.
杨美姣  刘惊雷 《计算机科学》2018,45(1):55-61, 78
大规模的稀疏图数据在现实中大量出现,例如协同图、拉普拉斯矩阵等。非负矩阵分解(NMF)已经成为数据挖掘、信息检索和信号处理的一个非常重要的工具。随着数据量的不断增大,如何实现大规模数据的偏好聚类是一个重要的问题。采用两阶段的方法来实现大规模的偏好聚类,即首先利用Nystrm的近似采样方法,从大数据上获得数据的初始轮廓,获得部分用户-用户相似矩阵或电影-电影相似矩阵,从而可以将原始的高维空间降低到一个低维子空间;然后通过对低维相似矩阵进行凸的非负矩阵分解,从而得到聚类的中心和指示器,聚类的中心表示电影或用户的特征,指示器表示用户或电影特征的权重。该两阶段偏好聚类方法的优点是,初始数据轮廓的近似获取以及凸的非负矩阵分解,使得该方法具有较好的鲁棒性和抗噪性;另外,子空间的数据来源于真实的矩阵行列数据,使得偏好聚类结果具有良好的可解释性。采用Nystrm方法解决了大规模的数据无法在内存中存储的问题,从而大大节省了内存,提高了运行效率。最后在含有100000条电影的数据集上进行偏好聚类,结果表明了该聚类算法的有效性。  相似文献   

8.
大数据聚类算法综述   总被引:1,自引:0,他引:1  
海沫 《计算机科学》2016,43(Z6):380-383
随着数据量的迅速增加,如何对大规模数据进行有效的聚类成为挑战性的研究课题。面向大数据的聚类算法对传统金融行业的股票投资分析、互联网金融行业中的客户细分等金融应用领域具有重要价值。对已有的大数据聚类算法进行了详细划分,并比较了每种聚类算法的优缺点,进一步总结了已有研究存在的问题,最后对未来的研究方向进行了展望。  相似文献   

9.
随着数据量的不断增加,传统的数据处理方法已经无法满足现代大数据处理的需求。近年来,云计算作为一种新型的数据处理方法逐渐被广泛采用。在云计算背景下,K-means聚类算法是一个重要的数据挖掘工具,拥有广泛的应用场景,包括图像处理、文本分析等。但是,当数据量大到一定程度时,传统的K-means聚类算法存在计算效率低和内存占用过大的问题。文章介绍了一种基于云计算的并行K-means聚类算法设计方案,介绍了云计算的概念、云平台技术的应用、云计算平台对并行计算的支持。实验结果表明,K-means算法在处理大规模数据集时的运行时间较长,而采用云计算平台进行并行化计算可以有效提高算法的运行效率。  相似文献   

10.
随着信息结构的日益复杂,单种聚类算法已经无法满足需求,集成聚类便发挥了巨大的作用。对于不同的划分,当前集成聚类算法都将其视为整体,其过程中会有信息损失。利用局部一致的特性,局部一致性集成聚类算法在非负矩阵分解的框架下得以产生。实验结果表明了该方法的有效性。  相似文献   

11.
一种基于快速分解模拟退火算法的数据聚类算法   总被引:2,自引:1,他引:2  
张蓉  彭宏 《计算机工程》2002,28(8):88-89
把求解数据聚类问题转换为一个图形分割寻优问题,提出一种基于快速分解模拟退火算法的数据聚类算法。实验结果证明,快速分解模拟退火算法退火时间短,收敛速度快,磁盘开销小,把它应用于数据聚类中,可以获得较好的聚类结果。I/O  相似文献   

12.
随着文本资源的激增,特别是网页文本的迅速增加,针对文本的挖掘分析日益受到重视。谱聚类是文本聚类分析较常用的一种新型方法。该文将非负约束引入到传统的谱聚类算法中,提出了一种基于非负约束的谱聚类方法。文中实验验证了所提出方法在中文文本聚类分析应用中的有效性。  相似文献   

13.
针对当前关联性数据在聚类后聚类结果与对应聚类簇之间距离过大,聚类簇本身聚类纯度较低等影响聚类质量的问题,开展相关研究。通过构建关联性大数据实时流式可控聚类框架、可控粗聚类、可控细聚类,提出一种全新的聚类算法。实验结果表明,新的聚类算法聚类结果与对应聚类簇的距离平方和数值更小,聚类簇本身聚类纯度更高,进一步提升聚类结果的质量,实现对关联性大数据的高效利用。  相似文献   

14.
为了提高K-Means聚类算法在高维数据下的聚类效果,提出一种基于稀疏约束非负矩阵分解的K-Means聚类算法。该算法在最优保持原始数据本质的前提下,通过在非负矩阵分解过程中对基矩阵列向量施加l1与l2范数稀疏约束,首先挖掘嵌入在高维数据中的低维数据结构,实现高维数据的低维表示,然后利用在低维数据聚类中性能良好的K-Means算法对稀疏降维后的数据进行聚类。实验结果表明提出的算法可行,并且在处理高维数据上有效。  相似文献   

15.
大数据和云计算是现代计算机中主要数据应用,大数据能够实现数据资源的智能存储,而云计算能够实现网络数据的综合计算.本文对大数据和云计算平台应用的研究,主要基于大数据和云计算的基本理论,对其实际程序应用实际进行探究.  相似文献   

16.
异构信息网络中包含多类实体和关系.随着数据规模增大时,不同类实体规模增长不平衡,异构关系数据也变得异常稀疏,导致聚类算法的时间复杂度高、准确率低.针对上述问题,提出了一种基于关联矩阵分解的2阶段联合聚类算法FNMTF-CM.第1阶段,抽取规模较小的一类实体中的关联关系构建关联矩阵,通过对称非负矩阵分解得到划分指示矩阵.与原始关系矩阵相比,关联矩阵的稠密度更高,规模更小.第2阶段,将划分指示矩阵作为关系矩阵三分解的输入,进而快速求解另一类实体的划分指示矩阵.在标准测试数据集和异构关系数据集上的实验表明,算法准确率和性能整体优于传统的基于非负矩阵分解的联合聚类算法.  相似文献   

17.
在信息技术的进步下,人们的联系也开始变得更加方便,真正地实现了交流方式快捷便利.在这样的背景下,大数据、云计算等领域都得到了大力的提升.大数据规模的逐渐扩大,让数据在被有效地分析、处理中遇到了挑战,而多维数据去重聚类算法的应用使得数据更好地被分析,降低了采样的复杂度并让数据被分析的准确度有所上升.本文对多维数据在大环境...  相似文献   

18.
针对电子商务系统中传统协同过滤推荐算法面临的稀疏性、准确性、实时性等问题,提出了一种基于用户谱聚类的协同过滤推荐算法。首先利用非负矩阵分解的方法对原始稀疏评分矩阵进行平滑处理,然后利用改进相似度的谱聚类方法将用户聚类,最后在用户所属类中寻找最近邻并产生推荐。用户谱聚类过程可离线完成,加快了在线推荐速度。在数据集MovieLens上的实验结果表明,该算法在平均绝对偏差、召回率、准确率等方面都有了较大改善,提高了推荐质量。  相似文献   

19.
聚类问题一直是模式识别和机器学习领域一个比较活跃而且极负挑战性的研究方向。谱聚类是近年来兴起的一类较流行的聚类方法。该文将非负约束引入到传统的谱聚类方法中,提出了一种基于非负约束的谱聚类方法。非负约束已在许多应用领域被证明是一种有用的性质。文中对比实验表明,基于非负约束的谱聚类方法在整体上明显优于传统的谱聚类方法。  相似文献   

20.
为提高K-means聚类算法在高维数据下的聚类效果,提出了一种基于正交非负矩阵分解的K-means聚类算法。该算法对原始数据进行非负矩阵分解,并分别通过改进的Gram-Schmidt正交化和Householder正交化加入了正交约束,以保证低维特征的非负性,增加数据原型矩阵的正交性,然后进行K-means聚类。实验结果表明,基于IGS-ONMF和H-ONMF的K-means聚类算法在处理高维数据上具有更好的聚类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号