共查询到20条相似文献,搜索用时 176 毫秒
1.
基于k均值分区的流数据高效密度聚类算法 总被引:2,自引:0,他引:2
数据流聚类是数据流挖掘研究的一个重要内容,已有的数据流聚类算法大多采用k中心点(均值)方法对数据进行聚类,不能对数据分布不规则以及高维空间数据流进行有效聚类.论文提出一种基于k均值分区的流数据密度聚类算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后对这些均值参考点进行密度聚类,理论分析和实验结果表明算法可以有效解决数据分布不规则以及高维空间数据流聚类问题,算法是有效可行的. 相似文献
2.
基于邻域属性熵的隐私保护数据干扰方法 总被引:3,自引:1,他引:2
隐私保护微数据发布是数据隐私保护研究的一个热点,数据干扰是隐私保护微数据发布采用的一种有效解决方法.针对隐私保护聚类问题,提出一种隐私保护数据干扰方法NETPA,NETPA干扰方法通过对数据点及邻域点集的分析,借助信息论中熵的理论,提出邻域属性熵和邻域主属性等概念,对原始数据中数据点的邻域主属性值用其k邻域点集内数据点在该属性的均值进行干扰替换,在较好地维持原始数据k邻域关系的情况下达到保护原始数据隐私不泄露的目的.理论分析表明,NETPA干扰方法具有良好地避免隐私泄露的效果,同时可以较好地维持原始数据的聚类模式.实验采用DBSCAN和k-LDCHD聚类算法对干扰前后的数据进行聚类分析比对.实验结果表明,干扰前后数据聚类结果具有较高的相似度,算法是有效可行的. 相似文献
3.
基于向量内积不等式的分布式k均值聚类算法 总被引:11,自引:2,他引:11
聚类分析是数据挖掘领域的一项重要研究课题.随着数据量的急剧增加,针对大数据集的聚类分析成为一个难点.虽然k均值算法具有易实现、复杂度与数据集大小成线性关系的优点,将其应用于大数据集时仍然存在效率低的问题.分布式聚类是解决这一问题的有效方法.在已有分布式聚类算法k—DMeans基础上,结合向量内积不等式关系对算法加以优化,提出分布式聚类算法k—DCBIP.理论分析和实验结果表明,算法k—DCBIP优于k-DMeans,可以有效地解决大数据集聚类问题,算法是有效可行的. 相似文献
4.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。 相似文献
5.
基于k均值分区的数据流离群点检测算法 总被引:10,自引:0,他引:10
离群知识发现是数据挖掘研究的一个重要方面,数据流离群点挖掘更因其挖掘对象具有动态性、不可复读性、数据量大等特点而成为离群知识发现研究的一个难点.提出一种基于k均值分区的流数据离群点发现算法,先对数据流进行分区做k均值聚类生成中间聚类结果(均值参考点集),随后在这些均值参考点中,根据离群点的定义找出可能存在的离群点.理论分析和实验结果表明,算法可以有效解决数据流离群点检测问题,算法是有效可行的. 相似文献
6.
流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一种基于矩阵模型的高维聚类边界检测技术(Clustering boundary detection based on matrix model,MMC).该模型构造简单、直接、易于理解和使用.理论分析以及在人工合成和真实数据集的实验结果表明MMC算法能够有效地检测出低维和高维空间的聚类边界. 相似文献
7.
一种基于数据垂直划分的分布式密度聚类算法 总被引:1,自引:0,他引:1
聚类分析是数据挖掘领域的一项重要研究课题,对大数据集的聚类更以其数据量大、噪声数据多等而成为一个难点.针对数据垂直划分的情况,提出连通点集及局部噪声点集等概念.在分析局部噪声点集与全局噪声点集以及局部连通点集与全局连通点集关系的基础上,对全局噪声点进行有效过滤,进一步设计闭三角链表结构存储各个结点的聚类中间结果,提出了基于密度的分布式聚类算法DDBSCAN.理论分析和实验结果表明,算法可以有效解决垂直划分的大数据集聚类问题,算法是有效可行的. 相似文献
8.
空间聚类是空间数据挖掘中一个非常重要的方法.本文在分析DBSCAN算法不足的基础上,提出一种改进的空间聚类算法(AISCA).为了能够有效处理大规模空间数据库,算法采用一种新的抽样技术.另外,通过引入匹配邻域的概念,使得算法在聚类时不仅考虑空间属性也考虑非空间属性.二维空间数据测试结果表明算法是可行、有效的. 相似文献
9.
针对传统数据分析方法对高维数据进行聚类分析时存在的操作过程繁琐及准确率低等缺陷,提出基于曲线距离分析的嵌入式增强聚类算法(ECE-CDA).计算高维空间中数据点之间的成对曲线距离并由聚类引导将其映射到低维空间,构造权重函数保持局部拓扑结构不变性.该算法简化了数据分析过程,同时实现降维和聚类,可作为通用的高精度框架.在12个公共数据集上的实验结果表明,该算法能有效进行数据降维并大幅提高模型的聚类精度. 相似文献
10.
基于聚类高维空间算法的离群数据挖掘技术研究 总被引:3,自引:1,他引:2
离群数据挖掘是数据挖掘领域的一个研究分支,而聚类算法分析则是进行离群数据挖掘的重要研究方法之一。文中首先分析研究离群数据挖掘方法,对多个离群数据挖掘算法进行分析比较,讨论各自的优点和不足,同时针对高维空间数据的特点,分析挖掘高维空间数据中的离群点方法。其次对聚类分析算法进行讨论,分析一种基于网格和基于密度的聚类方法——聚类高维空间算法(CLIQUE算法),运用它可以更好地挖掘高维空间中的离群数据。提出了CLIQUE算法的有待改进的思想,为以后的研究指明方向。 相似文献
11.
图像的无监督聚类就是基于图像数据,在无任何先验信息的情况下将整个图像集合划分成若干子集的过程。由于图像的本征维度很高,在图像处理中会遇到“维数灾难”问题。针对图像无监督聚类的特点,提出了一种图像的扩散界面无监督聚类算法,将图像编码成高维观测空间中的点,再通过投影变换映射到低维特征空间,在低维特征空间中构建扩散界面无监督聚类模型,并在模型中引入维度约简算子,采用循环迭代算法优化扩散界面模型的能量函数。基于最优的扩散界面,将整个图像集合聚类成不同的子集。实验结果表明,扩散界面无监督聚类算法优于传统聚类算法中的K-means算法、DBSCAN算法和Spectral Clustering算法,能够更好地实现图像的无监督聚类,在相同条件下具有更高的准确度。 相似文献
12.
2014年提出的密度峰值聚类算法,思想简洁新颖,所需参数少,不需要进行迭代求解,而且具有可扩展性。基于密度峰值聚类算法提出了一种网格聚类算法,能够高效地对大规模数据进行处理。首先,将N维空间粒化为不相交的长方形网格单元;然后,统计单元空间的信息,利用密度峰值聚类寻找中心点的思想确定中心单元,即中心网格单元被一些低局部密度的数据单元包围,而且与比自身局部密度高的网格单元的距离相对较大;最后,合并与中心网格单元相近网格单元,从而得出聚类结果。在UCI人工数据集上的仿真实验结果表明,所提算法能够较快得出聚类中心,有效处理大规模数据的聚类问题,具有较高的效率,与原始的密度峰值聚类算法相比,在不同数据集上时间损耗降低至原来的1/100~1/10,而精度损失维持在5%~8%。 相似文献
13.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。 相似文献
14.
基于单元区域的高维数据聚类算法 总被引:1,自引:0,他引:1
高维数据空间维数较高,数据点分布稀疏、密度平均,从中发现数据聚类比较困难,而用基于距离的方法进行高维数据聚类,维数的增多会使得计算对象间距离的时间开销增大. CAHD(clustering algorithm of high-dimensional data)算法首先采用双向搜索策略在指定的n维空间或其子空间上发现数据点密集的单元区域,然后采用逐位与的方法为这些密集单元区域进行聚类分析.双向搜索策略能够有效地减少搜索空间,从而提高算法效率,同时,聚类密集单元区域只用到逐位与和位移两种机器指令,使得算法效率得到进一步提高.算法CAHD可以有效地处理高维数据的聚类问题.基于数据集的实验表明,算法具有很好的有效性. 相似文献
15.
文本聚类中,文本特征向量的高维特性使得对样本统计特征的评估十分困难,所以有必要进行有效的维数简约。LLE算法利用线性重构的局部对称性找出高维数据空间中的非线性结构,并在保持各数据点临近位置关系情况下,把高维空间数据点映射为低维空间对应的数据点。文章采用LLE-k均值方法进行中文文本聚类研究。首先利用LLE进行降维处理,然后对得到的线性特征向量用k均值进行聚类分析,与PCAI、SOMAP和LLE算法比较,结果显示LLE-k均值算法能得到更好的可视化效果。 相似文献
16.
针对核模糊C均值(KFCM)算法对初始聚类中心敏感、易陷入局部最优的问题,利用人工蜂群(ABC)算法的构架简单、全局收敛速度快的优势,提出了一种改进的人工蜂群算法(IABC)与KFCM迭代相结合的聚类算法。首先,以IABC求得最优解作为KFCM算法的初始聚类中心,IABC在迭代过程中将与当前维度最优解的差值的变化率作为权值,对雇佣蜂的搜索行为进行改进,平衡人工蜂群算法的全局搜索与局部开采能力;其次,以类内距离和类间距离为基础,构造出适应KFCM算法的适应度函数,利用KFCM算法优化聚类中心;最后,IABC和KFCM算法交替执行,实现最佳聚类效果。采用3组Benchmark测试函数6组UCI标准数据集进行仿真实验,实验结果表明,与基于改进人工蜂群的广义模糊聚类(IABC-KGFCM)相比,IABC-KFCM对数据集的聚类有效性指标提高1到4个百分点,具有鲁棒性强和聚类精度高的优势。 相似文献
17.
聚类是数据挖掘领域的重要研究内容之一。参考基于元胞自动机距离变换算法模型,构建了基于CA模型的凝固聚类算法,该算法在CA模型演化的过程中,可以产生完整的层次聚类结果,同时对簇间的距离实现了度量,能够处理形状复杂的聚类对象,具有较好的向高维空间的推广能力以及并行计算的特性。最后通过两组聚类数据进行了实证研究,验证了该算法的有效性。 相似文献
18.
针对高斯混合模型(GMM)聚类算法对初始值敏感且容易陷入局部极小值的问题,利用密度峰值(DP)算法全局搜索能力强的优势,对GMM算法的初始聚类中心进行优化,提出了一种融合DP的GMM聚类算法(DP-GMMC)。首先,基于DP算法寻找聚类中心,得到混合模型的初始参数;其次,采用最大期望(EM)算法迭代估计混合模型的参数;最后,根据贝叶斯后验概率准则实现数据点的聚类。在Iris数据集下,DP-GMMC聚类准确率可达到96.67%,与传统GMM算法相比提高了33.6个百分点,解决了对初始聚类中心依赖的问题。实验结果表明,DP-GMMC对低维数据集有较好的聚类效果。 相似文献
19.
LSNCCP--一种基于最大不相含核心点集的聚类算法 总被引:2,自引:0,他引:2
聚类在数据挖掘、模式识别等许多领域有着重要的应用.提出了一种新颖的聚类算法:一种基于最大不相含核心点集的聚类算法LSNCCP(a clustering algorithm based on the largest set of not-covered core points).在密度定义的基础上,考察核心点之间的距离关系,定义相含、相交、相离这3种核心点之间的关系,最后找出一个最大不相含核心点集,在此基础上进行聚类,并且找到解决丢失点问题的快速方法.该最大不相含核心点集只是全部核心点集合的一个很小的子集,因此有效地缩减了同类算法中搜寻核心点的时间.理论和实验上证明了这种算法的可行性和优越性. 相似文献
20.
A new kernel-based fuzzy clustering approach: support vector clustering with cell growing 总被引:15,自引:0,他引:15
Jung-Hsien Chiang Pei-Yi Hao 《Fuzzy Systems, IEEE Transactions on》2003,11(4):518-527
In this paper, the support vector clustering is extended to an adaptive cell growing model which maps data points to a high dimensional feature space through a desired kernel function. This generalized model is called multiple spheres support vector clustering, which essentially identifies dense regions in the original space by finding their corresponding spheres with minimal radius in the feature space. A multisphere clustering algorithm based on adaptive cluster cell growing method is developed, whereby it is possible to obtain the grade of memberships, as well as cluster prototypes in partition. The effectiveness of the proposed algorithm is demonstrated for the problem of arbitrary cluster shapes and for prototype identification in an actual application to a handwritten digit data set. 相似文献