首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
负载自适应数据库系统中,负载特征化部件要实时对各种数据库的访问负载分类,根据分类的情况预测负载对数据库资源需求。是对常规聚类算法的一个改进,提出基于特征向量的聚类算法和基于特征向量的增量聚类算法。使用该算法后负载分类速度和准确性有明显提高。  相似文献   

2.
基于密度的分布式聚类算法研究   总被引:2,自引:2,他引:0       下载免费PDF全文
郑金彬  卓义宝 《计算机工程》2008,34(17):65-67,7
大量复杂异构数据分布于各个网络站点上,分布式聚类是海量数据处理的一个重要应用。该文针对基于密度的分布式聚类(DBDC)算法提出一种改进算法,利用局部聚类获取更佳的代表对象,将代表对象集附带相关信息传送至主站点,用增强的基于密度的聚类算法进行全局聚类,并更新子站点聚类。理论分析和实验结果表明,该算法在聚类质量和算法效率方面优于DBDC算法。  相似文献   

3.
针对分布式聚类算法DBDC存在的不足,提出一种基于中心点及密度的分布式聚类算法DCUCD。将数据分布计算出的虚拟点作为核心对象,核心对象的代表性随算法的执行次数提高,聚类即是对所有核心对象分类的过程。理论分析和实验结果表明,该算法能有效处理噪声和分布不规则的数据点,时间效率和聚类质量较好。  相似文献   

4.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

5.
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络.针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法.根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销.使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性.  相似文献   

6.
刘力雄  郭云飞  康晶  马宏 《计算机工程与设计》2011,32(8):2708-2711,2763
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream。该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性。由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型。仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量。  相似文献   

7.
在负载自适应数据库系统中,负载特征化部件是关键部分,首先要对负载分类,然后根据分类的情况预测负载性能。负载的分类一般采用聚类算法,聚类算法中比较典型的就是K—means算法。但在K—means算法中,k值必须提前设定而且不能根据负载的实际情况改变,就是对算法的一个改进,使得k值动态的、能够根据负载的实际情况改变。实验结果表明,使用该算法的分类结果预测负载运行时间的准确性有明显提高。  相似文献   

8.
为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚簇的算法。通过真实数据集与仿真数据集的实验表明,算法使用代表点能够发现不同形状的聚簇并显著降低数据传输量,同时通过测试—更新局部模型算法避免了频繁发送数据。  相似文献   

9.
Weka4WS采用WSRF技术用于执行远程的数据挖掘和管理分布式计算,支持分布式数据挖掘任务。基于Weka4WS和网格环境,尝试了一种新的分布式聚类方法,并成功地将其嵌入到Weka4WS框架中,借助Weka Library实现分布式数据挖掘算法,同时引入了距离代价和混合概率的概念,将网格与Web服务技术融合,以分布式问题求解环境和开源数据挖掘类库Weka为底层支持环境,构建了网格环境下面向服务的分布式数据挖掘体系,并以基于Weka4WS的分布式聚类算法验证了算法的有效性和体系结构的可行性。  相似文献   

10.
在数据聚类当中,谱聚类是最流行的方法之一,其性能取决于所选取相关图的拉普拉斯(Laplacian)矩阵的特征向量。对于一个K类问题,Ng-Jordan-Weiss(NJW)谱聚类算法通常采用Laplacian矩阵的前K个最大特征值对应的特征向量作为数据的一种表示。然而,对于某些分类问题,这K个特征向量不一定能够很好地体现原始数据的信息。本文提出一种基于均值的谱聚类特征向量选择算法。该算法首先得出图的Laplacian矩阵的前3K个最大特征值的均值,然后选取K个离均值最近的特征值所对应的特征向量。相比传统谱聚类算法,该算法在UCI数据集上获得了较好的聚类性能。  相似文献   

11.
朱强  孙玉强 《计算机应用》2014,34(9):2505-2509
传感器节点的资源是有限的,高的通信开销会消耗大量的电量。为了减小分布式流数据分类算法的通信开销,提出一种高效的分布式流数据聚类算法。该算法包含在线局部聚类和离线全局协同聚类两个阶段。在线局部聚类算法将每个流数据源进行局部聚类,并将聚类后的结果通过序列化技术发往协同节点;协同节点得到来自不同流数据源的局部聚类信息后进行全局聚类。从实验中可以看出,当不断增加窗口的大小时,算法用于数据发送的时间恒定不变,算法的聚类时间和总的时间呈线性增长,即所提出算法的执行时间不受滑动窗口宽度和聚类个数的影响;同时该算法与集中式算法的准确性接近,并且通信开销远远小于相关的分布式算法。实验结果表明,该算法具有很好的可扩展性,可应用于对大规模分布式流数据源进行聚类分析。  相似文献   

12.
目前常用向量空间模型 VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,在构建VSM时选取对区分类别贡献较大的特征词,因此有效地降低了特征空间的纬度,大大提高了系统的效率,改善了聚类的效果。通过真实数据集上的实验,证明其性能优于传统方法。  相似文献   

13.
王丽娟    丁世飞 《智能系统学报》2021,16(3):560-566
在实际应用中,数据点中包含的冗余特征和异常值(噪声)严重影响了聚类中更显著的特征的发现,大大降低了聚类性能。本文提出了一种基于ELM-AE (extreme learning machine as autoencoder)特征表示的谱聚类算法(spectral clustering via extreme learning machine as autoencoder, SC-ELM-AE)。ELM-AE通过奇异值分解学习源数据主要特征表示,使用输出权值实现从特征空间到原输入数据的重构;再将该特征表示空间作为输入进行谱聚类。实验表明,在5个UCI数据集验证中,SC-ELM-AE算法性能优于传统的K-Means、谱聚类等现有算法,特别是在复杂高维数据集PEMS-SF和TDT2_10上,聚类平均精确度均提高30%以上。  相似文献   

14.
田华  何翼 《计算机应用研究》2020,37(12):3586-3589
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。  相似文献   

15.
Unsupervised feature selection is an important problem, especially for high‐dimensional data. However, until now, it has been scarcely studied and the existing algorithms cannot provide satisfying performance. Thus, in this paper, we propose a new unsupervised feature selection algorithm using similarity‐based feature clustering, Feature Selection‐based Feature Clustering (FSFC). FSFC removes redundant features according to the results of feature clustering based on feature similarity. First, it clusters the features according to their similarity. A new feature clustering algorithm is proposed, which overcomes the shortcomings of K‐means. Second, it selects a representative feature from each cluster, which contains most interesting information of features in the cluster. The efficiency and effectiveness of FSFC are tested upon real‐world data sets and compared with two representative unsupervised feature selection algorithms, Feature Selection Using Similarity (FSUS) and Multi‐Cluster‐based Feature Selection (MCFS) in terms of runtime, feature compression ratio, and the clustering results of K‐means. The results show that FSFC can not only reduce the feature space in less time, but also significantly improve the clustering performance of K‐means.  相似文献   

16.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

17.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

18.
新的基于网格的聚类算法(CABG)利用网格处理技术对数据进行了预处理,能根据数据分布情况动态计算每个单元格的半径,并成功地将网格预处理后所得单元格数据运用于其后的聚类分析中,从而简化了算法所需的初始参数。实验表明,CABG算法不仅具有DBSCAN算法准确挖掘各种形状的聚类和很好的噪声处理能力的优点,而且具有较高聚类速度以及对初始参数较低的敏感度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号