首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
传统转导支持向量机有效地利用了未标记样本,具有较高的分类准确率,但是计算复杂度较高。针对该不足,论文提出了一种基于核聚类的启发式转导支持向量机学习算法。首先将未标记样本利用核聚类算法进行划分,然后对划分后的每一簇样本标记为同一类别,最后根据传统的转导支持向量机算法进行新样本集合上的分类学习。所提方法通过对核聚类后同一簇未标记样本赋予同样的类别,极大地降低了传统转导支持向量机算法的计算复杂度。在MNIST手写阿拉伯数字识别数据集上的实验表明,所提算法较好地保持了传统转导支持向量机分类精度高的优势。  相似文献   

2.
针对大规模数据集减法聚类时间复杂度高的问题,提出一种基于Nyström密度值逼近的减法聚类方法。特别适用于大规模数据集的减法聚类问题,可极大程度降低减法聚类的时间复杂度。基于Nyström逼近理论,结合经典减法聚类样本密度值计算的特点,巧妙地将Nyström理论用于减法聚类未采样样本之间密度权值矩阵的逼近,从而实现了对所有样本的密度值逼近,最后沿用经典减法聚类修正样本密度值的方法,实现整个减法聚类过程。将本文算法在人工数据、标准彩色图像及UCI数据集上进行了实验,详细说明了本文算法利用少数采样样本逼近多数未采样样本密度权值、密度值以及进行减法聚类的详细过程,并给出了聚类准确率、耗时及算法性能加速比。实验结果表明,与经典的减法聚类相比,本文算法在不影响聚类结果的情况下,对于较大规模数据集,可显著降低减法聚类的时间复杂度,极大程度地提高减法聚类的实时性能。  相似文献   

3.
针对大规模数据集减法聚类时间复杂度高的问题,提出一种基于Nyst(o)m密度值逼近的减法聚类方法.特别适用于大规模数据集的减法聚类问题,可极大程度降低减法聚类的时间复杂度.基于Nystr(o)m逼近理论,结合经典减法聚类样本密度值计算的特点,巧妙地将Nystr(o)m理论用于减法聚类未采样样本之间密度权值矩阵的逼近,从而实现了对所有样本的密度值逼近,最后沿用经典减法聚类修正样本密度值的方法,实现整个减法聚类过程.将本文算法在人工数据、标准彩色图像及UCI数据集上进行了实验,详细说明了本文算法利用少数采样样本逼近多数未采样样本密度权值、密度值以及进行减法聚类的详细过程,并给出了聚类准确率、耗时及算法性能加速比.实验结果表明,与经典的减法聚类相比,本文算法在不影响聚类结果的情况下,对于较大规模数据集,可显著降低减法聚类的时间复杂度,极大程度地提高减法聚类的实时性能.  相似文献   

4.
针对Nyström方法在谱聚类应用中存在聚类效果不稳定、样本代表性较弱的问题,提出基于加权集成Nyström采样的谱聚类算法.首先利用统计杠杆分数区别数据间的重要程度,对数据进行加权.然后基于权重采用加权K-means中心点采样,得到多组采样点.再引入集成框架,利用集群并行运行Nyström方法构建近似核矩阵.最后利用岭回归方法组合各个近似核矩阵,产生比标准Nyström方法更准确的低秩近似.在UCI数据集上的测试实验表明,文中算法取得较理想的聚类结果.  相似文献   

5.
基于谱聚类的聚类集成算法   总被引:13,自引:7,他引:6  
周林  平西建  徐森  张涛 《自动化学报》2012,38(8):1335-1342
谱聚类是近年来出现的一类性能优越的聚类算法,能对任意形状的数据进行聚类, 但算法对尺度参数比较敏感,利用聚类集成良好的鲁棒性和泛化能力,本文提出了基于谱聚类的聚类集成算法.该算法首先利用谱聚类算法的内在特性构造多样性的聚类成员; 然后,采用连接三元组算法计算相似度矩阵,扩充了数据点之间的相似性信息;最后,对相似度矩阵使用谱聚类算法得到最终的集成结果. 为了使算法能扩展到大规模应用,利用Nystrm采样算法只计算随机采样数据点之间以及随机采样数据点与剩余数据点之间的相似度矩阵,从而有效降低了算法的计算复杂度. 本文算法既利用了谱聚类算法的优越性能,同时又避免了精确选择尺度参数的问题.实验结果表明:较之其他常见的聚类集成算法,本文算法更优越、更有效,能较好地解决数据聚类、图像分割等问题.  相似文献   

6.
一种基于密度的高效聚类算法   总被引:9,自引:1,他引:8  
石陆魁  何丕廉 《计算机应用》2005,25(8):1824-1826
在聚类算法DBSCAN(DensityBasedSpatialClusteringofApplicationswithNoise)的基础上,提出了一种基于密度的高效聚类算法。该算法首先对样本集按某一维排序,然后通过在核心点的邻域外按顺序选择一个未标记的样本点来扩展种子点,以便减少查询次数,降低聚类的时间花费。对样本进行非线性核变换后再进行聚类可以有效地改善聚类的质量。理论分析表明,该算法的时间复杂性接近于线性复杂度。同时测试结果也表明新算法的时间复杂度和聚类质量都显著优于DBSCAN算法。  相似文献   

7.
多视图聚类能充分利用不同视图间数据的一致性和差异性,引起越来越多的关注。传统多视图聚类方法假设每个视图的数据都是完整的,然而在实际应用中,收集到的多视图数据常存在部分视图缺失的样本。为了对缺失多视图数据进行聚类分析,提出自适应图融合的缺失多视图聚类算法(IMC_AGF)。算法以两两视图间共有样本为瞄点构建样本-样本的相似度矩阵,学习其一致性知识,再利用两两视图间的互补性,用自适应图融合算法整合所有的相似度图,获取缺失多视图数据完整的相似度矩阵,然后进行谱聚类得到分类结果。实验结果表明,提出的算法优于与之比较的经典缺失多视图聚类方法。  相似文献   

8.
李森  刘希玉 《计算机应用研究》2012,29(11):4093-4096
针对高维数据的聚类问题,提出一种基于间隔Fisher分析(MFA)的半监督聚类算法。该算法首先使用已标记样本进行MFA映射,得到投影矩阵W后,再利用求得的投影方法对未标记样本进行降维;然后在低维空间引入基于约束的球形K-means(PCSKM)算法对降维后的数据进行半监督聚类,根据第一次的聚类结果,交替进行降维与聚类操作,直到算法收敛为止。该算法利用监督信息有效地集成了数据降维和半监督聚类。实验结果表明,该方法能够有效处理高维数据,同时能提高聚类性能。  相似文献   

9.
针对核模糊聚类算法优异的非线性表达能力,提出一种Gauss诱导核模糊c均值聚类算法(GIKFCMs)。首先,基于核目标函数和梯度法,得到特征空间聚类中心表达式,并通过内积运算得到聚类中心与样本的核矩阵表达式。其次,取核目标函数中的核函数为Gauss核函数,并利用梯度法得到输入空间聚类中心表达式。最后将聚类中心与样本的核矩阵代入输入空间聚类中心表达式中,从而得到GIKFCMs核聚类中心计算方法,同时得到相应的GIKFCMs核聚类算法。研究GIKFCMs算法的相关性质,分析算法的收敛性和初始化约束。GIKFCMs算法克服了原有核聚类算法在收敛性与初始化约束方面的缺陷。通过仿真实验验证了该算法的有效性。  相似文献   

10.
一种聚簇消减大规模数据的支持向量分类算法   总被引:3,自引:0,他引:3  
陈光喜  徐健  成彦 《计算机科学》2009,36(3):184-188
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法.首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集.证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义.最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度.  相似文献   

11.
周红芳  赵雪涵  周扬 《计算机应用》2012,32(8):2182-2185
传统密度算法DBSCAN与DBRS的缺点在于时间性能和聚类精度均较低,为此,提出一种结合限定区域数据取样技术的密度聚类算法——DBLRS。该算法在不增加时间和空间复杂度的基础上利用参数Eps查找核心点的邻域点和扩展点,并在限定区域(Eps,2Eps)内进行数据抽样。实验结果表明,限定区域内选取代表点进行簇的扩充降低了大簇分裂的概率,提高了算法效率与聚类精度。  相似文献   

12.
针对传统谱聚类算法没有解决簇划分过程中,簇间交叉区域样本点对聚类效果有影响这个问题,提出一种基于局部协方差矩阵的谱聚类算法,主要介绍了一种新的计算样本之间相似度亲和矩阵的方法,即通过计算样本点之间的欧氏距离划分出小子集,计算小子集的协方差,通过设定阈值剔除交叉点,由剩下的点构造相似矩阵,对相似矩阵进行特征值分解,用经典的[k]-means算法对由特征向量组成的矩阵聚类。通过在Control等真实数据集上的实验结果表明,该算法在聚类准确率、标准互信息等指标上比较对比算法获得更优秀的效果。  相似文献   

13.
后向传播神经网络算法是一种经典的分类算法,但是通常该算法训练时间较长。针对这种不足,提出了一种基于核聚类的快速后向传播算法。利用核聚类将原始样本划分为多个簇,对每一个簇计算簇中心样本,利用所有的簇中心样本作为新训练集进行神经网络学习。在UCI标准数据集和说话人识别数据集上的仿真实验,充分说明了算法较传统后向传播算法具有明显的速度优势。  相似文献   

14.
传统数据流聚类算法大多基于距离或密度,聚类质量和处理效率都不高。针对以上问题,提出了一种基于关联函数的数据流聚类算法。首先,将数据点以物元的形式模型化,建立解决问题所需要的关联函数;其次,计算关联函数的值,以此值的大小来判断数据点属于某簇的程度;然后,将所提方法运用到数据流聚类的在线-离线框架中;最后,采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明,所提方法的聚类纯度在92%以上,每秒能处理约6300条记录,与传统算法相比,处理效率有了较大的提高,在维度和簇数目方面的可扩展性较强,适用于处理大规模的动态数据集。  相似文献   

15.
针对传统谱聚类算法在处理大规模数据集时,聚类精度低并且存在相似度矩阵存储开销大和拉普拉斯矩阵特征分解计算复杂度高的问题。提出了一种加权PageRank改进地标表示的自编码谱聚类算法,首先选取数据亲和图中权重最高的节点作为地标点,以选定的地标点与其他数据点之间的相似关系来逼近相似度矩阵作为叠加自动编码器的输入。然后利用聚类损失同时更新自动编码器和聚类中心的参数,从而实现可扩展和精确的聚类。实验表明,在几种典型的数据集上,所提算法与地标点谱聚类算法和深度谱聚类算法相比具有更好的聚类性能。  相似文献   

16.
谱聚类将数据聚类问题转化成图划分问题,通过寻找最优的子图,对数据点进行聚类。谱聚类的关键是构造合适的相似矩阵,将数据集的内在结构真实地描述出来。针对传统的谱聚类算法采用高斯核函数来构造相似矩阵时对尺度参数的选择很敏感,而且在聚类阶段需要随机确定初始的聚类中心,聚类性能也不稳定等问题,本文提出了基于消息传递的谱聚类算法。该算法采用密度自适应的相似性度量方法,可以更好地描述数据点之间的关系,然后利用近邻传播(Affinity propagation,AP)聚类中“消息传递”机制获得高质量的聚类中心,提高了谱聚类算法的性能。实验表明,新算法可以有效地处理多尺度数据集的聚类问题,其聚类性能非常稳定,聚类质量也优于传统的谱聚类算法和k-means算法。  相似文献   

17.
经典的模糊C-均值聚类算法存在对噪声数据较为敏感、未考虑样本属性特征间的不平衡性及对高维数据聚类不理想等问题,而可能性聚类算法虽然解决了噪声敏感和一致性聚类问题,但算法假定每个样本对聚类的贡献程度一样。针对以上问题,提出了一种基于样本-特征加权的可能性模糊核聚类算法,将可能性聚类应用到模糊聚类中以提高其对噪声或例外点的抗干扰能力;同时,根据不同类的具体特性动态计算样本各个属性特征对不同类别的重要性权值及各个样本对聚类的重要性权值,并优化选取核参数,不断修正核函数把原始空间中非线性可分的数据集映射到高维空间中的可分数据集。实验结果表明,基于样本-特征加权模糊聚类算法能够减少噪声数据和例外点的影响,比传统的聚类算法具有更好的聚类准确率。  相似文献   

18.
提出一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。通过引入核函数,样本点被非线性变换映射到高维特征空间进行聚类,提高聚类性能。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K-mean算法;在处理大型文档时,该算法的时间复杂度小于传统的K-mean算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号