首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 66 毫秒
1.
基于最近邻原则的半监督聚类算法   总被引:1,自引:0,他引:1  
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。  相似文献   

2.
基于最近邻距离差的改进孤立点检测算法   总被引:1,自引:0,他引:1  
k最近邻孤立点检测算法的检测结果受用户设置参数的影响较大,并且无法判定孤立点强弱,针对该缺陷,引入阈半径和密集度阈值,提出基于最近邻距离差的孤立点检测算法.通过在多个数据集上的实验表明,改进算法扩大了参数的设置范围,降低了参数对结果的影响,并能够有效检测出强孤立点,用户通过调整密集度阈值,可以判定孤立点强弱,改进算法增强了原算法的稳定性和灵活性.  相似文献   

3.
基于模糊最近邻的高维数据聚类   总被引:3,自引:0,他引:3  
提出一种基于模糊最近邻的聚类算法(简称FNNC算法).FNNC算法通过加权共享最近邻图来形成簇,而且仅仅使用对象图中一些有用的连接.本文通过实验验证了FNNC算法在高维数据聚类中的有效性.  相似文献   

4.
基于相似系数和检测孤立点的聚类算法   总被引:11,自引:2,他引:11  
姜灵敏 《计算机工程》2003,29(11):183-185
在多目标决策和综合评价中,有个别对象远远偏离群体,成为孤立点集。如果不别除这些对象,就会影响决策和评价的结果。数据挖掘中孤立点集检测算法通常是基于项集属性的,显然不适干多目标决策(MODM)和综合评价中的孤立点集检测。该文提出了一个基于相似系数和检测孤立点的聚类算法,有效地解决了这个问题。  相似文献   

5.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

6.
基于近邻传播算法的半监督聚类   总被引:29,自引:2,他引:29  
肖宇  于剑 《软件学报》2008,19(11):2803-2813
提出了一种基于近邻传播(affinity propagation,简称AP)算法的半监督聚类方法.AP是在数据点的相似度矩阵的基础上进行聚类.对于规模很大的数据集,AP算法是一种快速、有效的聚类方法,这是其他传统的聚类算法所不能及的,比如:K中心聚类算法.但是,对于一些聚类结构比较复杂的数据集,AP算法往往不能得到很好的聚类结果.使用已知的标签数据或者成对点约束对数据形成的相似度矩阵进行调整,进而达到提高AP算法的聚类性能.实验结果表明,该方法不仅提高了AP对复杂数据的聚类结果,而且在约束对数量较多时,该方法要优于相关比对算法.  相似文献   

7.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性.针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN).通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度...  相似文献   

8.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

9.
在分析现有的孤立点探测算法的基础上,提出一种新颖的基于聚类的孤立点集挖掘算法.该算法不但能够探测出所有的孤立点,还能根据孤立点产生的原因对这些孤立点进行分类。通过实验数据测试,本算法有较好的稳定性和性能的优越性。  相似文献   

10.
利用客户交易数据聚类分析,可得到更优异的客户细分效果,有助于企业更详实地了解消费者,制定精准的营销策略.PurTreeClust是一种新型的客户交易数据聚类算法,定义了一种新型的度量方式PurTree距离,可以很好地分析处理具有层次树结构的交易数据,但未考虑近邻点的影响,仅将交易树分配到距离最近的聚类中心所属类簇,容易...  相似文献   

11.
谱聚类是一种极具竞争力的聚类算法.相似度定义对谱聚类算法的性能有至关重要的影响.本文用两点的共享近邻数目表征局部密度,从而获知隐含的簇结构信息.将这一信息与自调节的高斯核函数结合,提出了基于共享近邻的自适应相似度及相应的谱聚类算法.它满足聚类假设的要求,具有局部密度的自适应性,能有效识别数据点之间的内在联系.典型人工和真实数据集上的实验结果证明了算法的有效性.  相似文献   

12.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

13.
谱聚类算法是基于谱图划分理论的一种机器学习算法,它能在任意形状的样本空间上聚类且收敛于全局最优解。但是传统的谱聚类算法很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验。结合半监督聚类的思想,在给出一部分监督信息的前提下,提出了一种基于共享近邻的成对约束谱聚类算法(Pairwise Constrained Spectral Clustering Based on Shared Nearest Neighborhood,PCSC-SN)。PCSC-SN算法是用共享近邻去衡量数据对之间的相似性,用主动约束信息找到两个数据点之间的关系。在数据集UCI上做了一系列的实验,实验结果证明,与传统的聚类算法相比,PCSC-SN算法能够获得更好的聚类效果。  相似文献   

14.
边界剥离聚类算法(BP)是一种基于密度的聚类算法,它通过逐渐剥离边界点来揭示聚类的潜在核心,已经被证明是一种十分有效的聚类手段.然而, BP算法仍存在一些不足之处:一方面,数据点的局部密度仅考虑了距离特征,使得边界点的确定不够合理;另一方面, BP算法中的关联策略容易误判异常值,并且在分配边界点时容易产生连带错误.为此,本文提出了一种基于共享近邻和优化关联策略的边界剥离聚类算法(SOBP).该算法使用了基于共享近邻的局部密度函数来更好地探索数据点之间的相似性,同时优化了BP算法中的关联策略,使得每次迭代中边界点不再仅与一个非边界点进行关联,并进一步采用了边界点与非边界点、已剥离边界点之间的双重关联准则.在一些数据集上的测试表明,相较于其他6种经典算法,该算法在评估指标上表现更佳.  相似文献   

15.
现有反k邻域的流数据离群点挖掘算法存在一些不足之处,即需要遍历每个数据对象,计算复杂度较高,稳定性较差。为了解决这些问题,本文提出一种改进的基于反k近邻的离群点检测算法OL-ORND。该算法采用细胞邻域思想,加入伪反k邻域点概念(反k邻域为空集的点对象),增加了算法的严密性,从而大大提高了算法的效率和准确率。实验表明,算法具有较好的性能。  相似文献   

16.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

17.
基于反k近邻的流数据离群点挖掘算法   总被引:1,自引:0,他引:1  
基于局部离群因子的增量挖掘算法需要多次扫描数据集。反k近邻适用于度量离群程度,根据该性质提出基于反k近邻的流数据离群点挖掘算法(SOMRNN)。采用滑动窗口模型更新当前窗口,仅须进行一次扫描,提高了算法效率。通过查询过程实现在任意指定时刻对当前窗口进行整体查询,及时捕捉数据流概念漂移现象。实验结果证明,SOMRNN具有适用性和有效性。  相似文献   

18.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号