首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 457 毫秒
1.
为了充分挖掘成对约束所隐含的信息来指导数据降维和数据聚类,提出一种基于加权成对约束投影的半监督聚类方法.该方法构造成对约束信息的k最近邻集并扩充成对约束集,分析成对约束实例包含的信息量并构造权系数矩阵,在加权成对约束信息的指导下求得投影矩阵,通过投影矩阵将样本数据投影到低维空间,使类内各点紧密分布,类间各点分散分布.同时,通过一种新的评价函数对k均值聚类算法进行改进,能够在尽量不违反成对约束的情况下优化聚类性能,实验结果表明,与现有半监督降维聚类算法相比,新方法能以较低的开销对高维数据进行聚类.  相似文献   

2.
多视图子空间聚类是处理高维数据的一种聚类方法,通过分别在每个视图上构造邻接矩阵的方法解决聚类问题,但未考虑到低秩表示和稀疏约束的结合在构造邻接矩阵中的重要性. 针对此问题,提出一种联合低秩表示和稀疏约束的双层多视角子空间聚类方法,使其更全面地描述数据本身,从而实现更有效的聚类,并采用ADMM方法来解决每个视图相关的低秩表示和稀疏性约束优化问题. 在多个数据集上的实验表明,其聚类性能比现有的多视角子空间聚类算法好,低秩表示和稀疏约束的结合可以提高聚类的准确性.  相似文献   

3.
谱聚类算法中用亲和矩阵特征值最大的k个特征向量并不总是能有效地发现数据集的结构。为了选取较好特征向量,提出了一种特征向量的Bagging选取算法。以成对约束计分方法为评价标准,对特征向量进行评价并选出较好的特征向量,将多次选择的特征向量进行Bagging集成(Bootstrap aggregating),得出k个特征向量的组合。该算法能够较好地选取出特征向量,根据UCI实验数据集的测试,证实该算法对测试数据集可以得出较好的预测结果。  相似文献   

4.
障碍约束下的空间聚类问题具有很强的实用价值,是近几年来空间数据挖掘研究领域的一个热点,研究和分析了现有的障碍约束空间聚类算法,针对其中存在的问题,提出了一种新的基于密度和网格的障碍约束下空间聚类算法,该算法在CLICQU算法的基础上,引入障碍网格的概念和障碍物的网格化表达,使其能够处理任意形状的障碍约束聚类,通过理论分析和实验验证,该算法具有较好的时间复杂度和聚类效果。  相似文献   

5.
约束聚类是聚类研究中的热点之一.文章就此探讨了在聚类过程中引入领域知识进行“约束”的方法.介绍了约束聚类的定义,并按约束的应用将约束条件归并为全局约束、实例约束、其它约束等,然后概括了相应约束条件下的算法,最后介绍了约束对于聚类带来的益处和问题.  相似文献   

6.
针对网络入侵检测数据存在大量冗余信息和传统聚类算法对离群点检测不足的问题,提出一种基于主成分分析(principal component analysis, PCA)和半监督聚类的入侵检测算法。首先使用PCA对数据进行特征提取,消除数据间的冗余属性;然后利用少量已标记样本和成对约束信息,通过引入竞争凝聚让系统主动学习,以实现对大量未知样本的检测。在入侵检测数据集和UCI基准数据集上的实验结果表明,该算法能有效提高系统的性能。  相似文献   

7.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

8.
为了有效利用少量先验信息提高多视角数据聚类效果,提出了一种基于距离度量学习的半监督多视角谱聚类算法(简称ML-SMC)。首先,利用距离度量学习引入先验信息,将多视角数据映射到反映先验约束条件的空间.然后,根据相似性构造每个视角的视图,将多视角聚类问题转化为最小正则割的图划分问题。实验结果表明:ML-SMC算法聚类结果的精度优于3种经典的多视角聚类算法和4种半监督单视角聚类算法。并且通过利用少量先验信息ML-SMC算法能够有效提高聚类效果。  相似文献   

9.
现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究.利用模糊可扩展聚类框架,与模糊加权软子空间聚类算法相结合,提出了一种有效的模糊加权流数据软子空间聚类算法(FWSSC).实验结果表明,FWSSC对于高维流数据可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

10.
针对密度峰值聚类算法在处理分布不均匀数据集时聚类性能不佳且不能自动确定聚类中心的问题,提出基于共享邻域的密度峰值聚类算法(DPC-SN)。首先,考虑数据点的局部邻域信息和数据点间的相关性,根据共享邻域重新定义局部密度;其次,给出了新的决策阈值作为区分聚类中心和非聚类中心的临界值,自动获取聚类中心;最后,在不同分布特征的合成数据集和UCI数据集进行实验验证。结果表明,该算法聚类精度和总体性能优于基于K近邻的密度峰值聚类(DPC-KNN)、原始密度峰值聚类(DPC)、K均值聚类(K-means)和基于密度的聚类(DBSCAN)4种算法。  相似文献   

11.
针对多数聚类集成方法忽视潜在信息或获取潜在信息方法复杂这一缺点,提出一种基于链接的模糊聚类集成方法。该算法首先利用模糊聚类算法建立集成信息矩阵,然后使用相应的链接方法将集成信息矩阵转化为反映数据相关性的权重图,最后运用图划分技术得到最终结果。实验结果表明,新提出的算法可以有效地获取潜在信息,同时提高聚类质量。  相似文献   

12.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

13.
Considering neutrosophic C-means clustering algorithm with weak ability of suppressing noise, a neutrosophic C-means clustering segmentation algorithm based on the hidden Markov random field is proposed. First, the hidden Markov random field is used to describe the prior information of the arbitrary pixels classification. Second, information divergence between the prior information and sample classification membership is taken as a regular term and embedded into the existing neutrosophic C-means clustering objective function. Third, the samples in the European Space is mapped into the high-dimensional space through the kernel function, and the iterative expression for the neutrosophic C-means clustering segmentation algorithm based on the hidden Markov random field is obtained by the optimization method. Many standard, actual, and synthetic images corrupted by noise are used to validate the segmentation performance of the improved clustering segmentation algorithm. Experimental results show that the anti-noise performance of the proposed segmentation algorithm is improved significantly than the fuzzy C-means clustering algorithm based on the hidden Markov random field, and other fuzzy clustering segmentation algorithms.  相似文献   

14.
一种基于近似EMD的DBSCAN改进算法   总被引:2,自引:2,他引:0  
DBSCAN(density based spatial clustering of applications with noise)算法是基于密度的经典聚类算法,但是该算法应用于高维数据时,常用距离函数不能很好地反映出数据点之间的关系, 从而可能导致聚类簇不够精确。如果能在高维空间中采用合适的距离度量,将会改善聚类结果。针对上述问题,提出利用近似EMD(earth mover’s distance,堆土机距离)作为距离测度,通过迭代搜索的方法找出所有直接密度可达对象实现聚类。实验结果表明:在高维文本数据的聚类中,和原来算法相比,改进算法的正确率提高了6%,两者在时间上相差不大;而对低维的Iris数据,改进算法通过EMD改善了实体间的相似性度量,减少了划分为噪声点的数据点个数,平均正确率提高了10%。实验结果表明了改进算法对高维数据的有效性,并可以改善聚类性能。  相似文献   

15.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

16.
针对单一聚类算法存在的不能泛化的问题,将集成学习技术应用于聚类算法中,集成学习技术可以显著提高学习系统的泛化能力。提出了1种基于粒子群和遗传算法的协同进化聚类集成算法,粒子群算法保证算法快速收敛,遗传算法全局搜索扩大搜索范围,提高了聚类的性能和收敛速度。将本研究提出的算法在多个UCI数据集上进行试验验证,结果表明该算法是有效的。  相似文献   

17.
考虑了一种带有数据领域知识的降维问题。这里领域知识是指关于数据的一些额外监督信息,如类别标号以及比标号弱的样本间相似性和不相似性约束等。其中,约束可以从标号中产生,但反过来从约束中却得不到标号信息,因而约束比标号更一般。另外,在图像检索等实际应用中,约束比标号更容易获取。鉴于此,本文主要研究基于约束的降维问题。提出了一种有效利用约束进行降维的约束保持嵌入算法(constraint preserving embedding, COPE),将其纳入到图嵌入统一框架之中并指出与同类方法的关系。进一步,通过引入无标记样本提出了半监督COPE算法;提出核COPE以揭示数据中的非线性结构。最后,在人脸识别、图像检索及半监督聚类等一系列实验中的结果验证了算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号