首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能.  相似文献   

2.
聚类个数的确定是聚类分析中一个富有挑战性的难题。现有的聚类个数确定方法主要采用随机选取初始聚类中心的策略,导致聚类过程中迭代次数的稳定性不强。基于此,在利用含有类标签的先验信息优化初始类中心的基础上,提出了一种基于先验信息的混合数据聚类个数确定算法。实验证明,该算法是有效的。  相似文献   

3.
基于密度加权的粗糙K-均值聚类改进算法   总被引:8,自引:1,他引:7  
针对粗糙K-均值聚类算法中类均值计算式的特点,提出了一种改进的粗糙K-均值算法.改进后的算法基于数据对象所在区域的密度,在类的均值计算过程中对每个对象赋以不同的权重.不同测试数据集的实验结果表明,改进后的粗糙K-均值算法提高了聚类的准确性,降低了迭代次数,并且可以有效地减小孤立点对聚类的影响.  相似文献   

4.
聚类分组数的自动确定是谱聚类算法中一个亟待解决的问题.针对谱聚类算法聚类分组数的获取问题,提出一种基于人工免疫的自适应谱聚类算法.该算法通过模拟抗体的克隆选择机制和免疫系统的初次免疫应答、二次免疫应答机制,实现了数据样本聚类分组数的自动调整,解决了聚类算法需要人工输入聚类分组数的弊端.并分别在线性模拟数据、非凸模拟数据和UCI数据集上验证了算法的可行性、算法在非凸数据集上的优势以及算法的有效性.实验结果表明该算法可以自动获取正确的聚类分组数,提高聚类效果,减少达到全局最优解时的迭代次数,具有较高的稳定性.  相似文献   

5.
聚类集成使用合适的策略融合多个具有差异性的基聚类成员,能够有效提高聚类结果的稳定性、鲁棒性和准确率。当前聚类集成的研究较少利用已知的先验信息,面对复杂数据时难以刻画对象与类簇之间明确的归属关系。因此,提出一种基于Seeds集和成对约束的半监督三支聚类集成方法。首先,基于已有的标签信息提出一种新的三支标签传播算法构造基聚类成员;其次,提出一种半监督三支聚类集成框架集成基聚类成员,构造出一致性相似矩阵,并利用成对约束信息对该矩阵进行优化调整;最后,将三支谱聚类作为一致性函数对相似矩阵进行聚类,得到最终集成结果。在多个UCI真实数据集上的实验结果表明,与基于类簇的相似分区算法(CSPA)、超图分区算法(HGPA)、元类簇算法(MCLA)、标签传播算法(LPA)、Cop-Kmeans等半监督聚类集成算法相比,所提方法的归一化互信息(NMI)、调整兰德系数(ARI)和F测度在绝大多数据集上取得了最优值,获得了相对更好的聚类集成结果。  相似文献   

6.
邱保志  程栾 《计算机应用》2018,38(9):2511-2514
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度的聚类方法(DBSCAN)、密度峰值聚类(DPC)算法以及拉普拉斯中心峰聚类(LPC)算法相比,ALPC具有自动确定聚类中心、无参数的特点,且具有较高的聚类精度。  相似文献   

7.
受不确定因素降雨难以准确处理的制约以及蚁群聚类算法在搜索空间容易陷入局部最优解和搜索速度慢的特征影响,为了提高滑坡危险性预测的精度,提出一种不确定近似骨架蚁群聚类算法。首先采用Gauss点概率模型来描述不确定数据,对不确定数据进行相似性度量;其次引入信息素重分配和自适应动态变量实现蚁群聚类算法局部信息素和全局信息素更新,提高蚁群聚类算法搜索速度,加载遗传算法避免蚁群聚类算法过早陷入局部最优;最后结合近似骨架理论,构建不确定近似骨架蚁群聚类算法模型,缩减迭代次数,快速搜索出聚类结果。在UCI真实数据集和延安宝塔区滑坡实验数据集上的实验结果显示,不确定近似骨架蚁群聚类 算法具有较高的聚类质量,预测精度达到93.3%,验证了算法在滑坡危险性预测中的可行性。  相似文献   

8.
孙倩  陈昊  李超 《计算机应用研究》2020,37(6):1707-1710,1764
针对大数据聚类算法计算效率与聚类性能较低的问题,提出了一种基于改进人工蜂群算法与MapReduce的大数据聚类算法。将灰狼优化算法与人工蜂群算法结合,同时提高人工蜂群算法的搜索能力与开发能力,该策略能够有效地提高聚类处理的性能;采用混沌映射与反向学习作为ABC种群的初始化策略,提高搜索的解质量;将聚类算法基于Hadoop的MapReduce编程模型实现,通过最小化类内距离的平方和实现对大数据的聚类处理。实验结果表明,该算法有效地提高了大数据集的聚类质量,同时加快了聚类速度。  相似文献   

9.
高维数据流子空间聚类发现及维护算法   总被引:3,自引:2,他引:3  
近年来由于数据流应用的大量涌现,基于数据流模型的数据挖掘算法研究已成为重要的应用前沿课题.提出一种基于Hoeffding界的高维数据流的子空间聚类发现及维护算法--SHStream.算法将数据流分段(分段长度由Hoeffding界确定),在数据分段上进行子空间聚类,通过迭代逐步得到满足聚类精度要求的聚类结果,同时针对数据流的动态性,算法对聚类结果进行调整和维护.算法可以有效地处理高雏数据流和对任意形状分布数据的聚类问题.基于真实数据集与仿真数据集的实验表明,算法具有良好的适用性和有效性.  相似文献   

10.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

11.
The sensitivity of the constrained K-means clustering algorithm (Cop-Kmeans) to the assignment order of instances is studied, and a novel assignment order learning method for Cop-Kmeans, termed as clustering Uncertainty-based Assignment order Learning Algorithm (UALA), is proposed in this paper. The main idea of UALA is to rank all instances in the data set according to their clustering uncertainties calculated by using the ensembles of multiple clustering algorithms. Experimental results on several real data sets with artificial instance-level constraints demonstrate that UALA can identify a good assignment order of instances for Cop-Kmeans. In addition, the effects of ensemble sizes on the performance of UALA are analyzed, and the generalization property of Cop-Kmeans is also studied.   相似文献   

12.
针对K-medoids算法易陷入局部最优和聚类结果不稳定的问题,提出了一种精英遗传K-medoids聚类算法。该算法使用精英策略来控制遗传操作的整体进化方向;根据种群的平均适应度引入若干随机个体来提高种群多样性,从而在一定程度上减少了遗传算法的早熟现象。为了提高进化效率,该算法设计出一种新的交叉方式;为了保证交叉变异结果的优秀性,该算法引入了一种竞争机制。8个数据集的仿真实验表明,该算法在提高聚类准确率的同时,聚类结果的稳定性也有所提高。  相似文献   

13.
为提高CLARANS算法的准确性和执行效率,利用网格聚类算法对数据空间进行划分的思想,结合统计信息网格算法,对算法初始节点和邻居节点的选择及替换总代价的计算进行改进。实验结果表明,与CLARANS算法相比,改进算法聚类结果的准确性和稳定性更高,执行时间明显降低。  相似文献   

14.
针对标签均值半监督支持向量机在图像分类中随机选取无标记样本会导致分类正确率不高,以及算法的稳定性较低的问题,提出了基于聚类标签均值的半监督支持向量机算法。该算法修改了原算法对于无标记样本的惩罚项,对选取的无标记样本聚类,使用聚类标签均值替换标签均值。实验结果表明,使用聚类标签均值训练的分类器大大减少了背景与目标的错分情况,提高了分类的正确率以及算法的稳定性,适合用于图像分类。  相似文献   

15.
K-均值聚类算法(K-means)是基于划分的聚类算法中的典型算法,针对K-means算法初始聚类中心存在对K依赖的缺陷,提出一种新的选取K-means算法初始聚类中心的方法,该方法提高聚类结果的有效性和稳定性;还提出一种极值选择法,将最大距离法和最小距离法相结合,进一步提高初始聚类中心选择的准确性。  相似文献   

16.
傅鹤岗  彭晋 《计算机工程》2011,37(3):70-71,74
针对传统协同过滤算法普遍存在的稀疏性和扩展性问题,在传统协同过滤算法的基础上提出一种基于模范用户的协同过滤算法。通过对用户空间的聚类,自动选取模范用户聚类的最优粒度,利用模范用户产生推荐。实验结果表明,与传统协同过滤算法和其他基于聚类策略的算法相比,该算法在明显提高推荐效率的同时对推荐精度和稳定性都有所改进。  相似文献   

17.
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。对比实验结果表明,该算法聚类有效性与稳定性都得到较大提高。  相似文献   

18.
为了解决聚类算法容易陷入局部最优的问题,以及增强聚类算法的全局搜索能力,基于KHM算法以及改进的引力搜索算法,本文提出一种混合K-调和均值聚类算法(G-KHM)。G-KHM算法具有KHM算法收敛速度快的优点,但同时针对KHM算法容易陷入局部最优解的问题,在初始化后数据开始搜索聚类中心时采用了一种基于对象多样性及收敛性增强的引力搜索算法,该方法改进了引力搜索算法容易失去种群多样性的缺点,并同时具有引力搜索算法较强的全局搜索能力,可以使算法收敛到全局最优解。仿真结果表明,G-KHM算法能有效地避免陷入局部极值,具有较强的全局搜索能力以及稳定性,并且相比KHM算法、K-mean聚类算法、C均值聚类算法以及粒子群算法,在分类精度和运行时间上表现出了更好地效果。  相似文献   

19.
The problem of task assignment in heterogeneous computing systems has been studied for many years with many variations. We consider the version in which communicating tasks are to be assigned to heterogeneous processors with identical communication links to minimize the sum of the total execution and communication costs. Our contributions are three fold: a task clustering method which takes the execution times of the tasks into account; two metrics to determine the order in which tasks are assigned to the processors; a refinement heuristic which improves a given assignment. We use these three methods to obtain a family of task assignment algorithms including multilevel ones that apply clustering and refinement heuristics repeatedly. We have implemented eight existing algorithms to test the proposed methods. Our refinement algorithm improves the solutions of the existing algorithms by up to 15% and the proposed algorithms obtain better solutions than these refined solutions.  相似文献   

20.
彭红 《计算机仿真》2012,29(2):257-259,395
研究图像配准精确度问题。由于两张图片几何关系及量度均有不同,要达到配准效果应有空间一致性。传统的聚类图像配准算法进行图像配准时,配准精度较低,算法复杂度高等不足。为了有效提高图像配准的精确度,提出了一种改进的数学形态学和聚类算法相结合的图像配准方法。算法首先改进的基于空间模式均值聚类对图像进行区域分块,并对分块的位置进行空间聚类,并准确计算出基准图像的最后的配准位置,并采用数学形态学方法对配准后的图像进行边缘处理,最后评估配准图像的质量。仿真结果表明,提出的改进的算法有效的提高了配准精确度,是一种可行性有效的图像配准算法,为图像配准提供了依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号