首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分。现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有效性。实际上,聚类的有效性取决于结构有效性、算法有效性和先验有效性3个方面的因素。基于这种考虑,提出了一种变体混合模型的聚类结构假设,以及判定聚类结构的稳定性的度量和方法,在算法有效的前提下通过单簇的分裂与合并来改进聚类结构的稳定性,并得到最终聚类结果,设计并实现了SMClus聚类算法,通过对模拟数据和真实数据的聚类实验,例证了方法的有效性。  相似文献   

2.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

3.
数据库查询方法审计疑点发现依赖于审计人员先验知识,当经验不足且审计数据量巨大时,难以发挥大数据优势并从海量数据中发现疑点。为解决这一问题,提出基于改进Leaders算子迭代聚类的审计大数据潜在疑点发现方法。该方法在无先验知识的情形下,通过Leaders算法自动完成审计大数据的初始聚类,在此基础上通过随机抽样融合方法对初始聚类结果优化,最后通过多次迭代聚类的方法,对实例数较少或可疑程度易被掩盖的小簇进一步聚类,实现审计大 数据的精确聚类,并将实例较少且行为明显异常的数据聚类识别为潜在疑点,配合审计人员审计经验快速精确定位审计疑点。实验结果验证了算法的有效性,表明算法有助于从海量数据中自主发现审计疑点,缩小疑点筛查范围,提高审计效率。  相似文献   

4.
柴变芳  吕峰  李文斌  王垚 《计算机应用》2018,38(11):3139-3143
基于迭代框架的主动半监督聚类框架(IASSCF)是一个流行的半监督聚类框架。该框架存在两个问题:其一,初始先验信息较少导致迭代初期聚类效果不佳,进而影响后续聚类结果;其二,每次迭代只选择信息量最大的一个样本标记,导致运行速度慢、性能提升慢。针对这两个问题,设计了一种基于主动学习先验的半监督K-means聚类算法。该方法包含初始化阶段和迭代阶段。初始化阶段主动选择代表性较高的节点集合,并基于代表节点集合构建各类的先验节点集合和约束先验集合。迭代阶段,每次迭代包含三步:1)基于当前约束先验集合,利用约束半监督聚类算法PCK-means对数据进行聚类;2)依据当前聚类结果,主动选择每个簇中最具价值信息的未标注样本点;3)利用选择样本点扩充先验节点集合及约束集合。迭代此过程至达到收敛阈值。实验结果表明,与基于原IASSCF框架的半监督K-means聚类算法相比,所提算法运行速度更快,性能更优。  相似文献   

5.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

6.
对称非负矩阵分解SNMF作为一种基于图的聚类算法,能够更自然地捕获图表示中嵌入的聚类结构,并且在线性和非线性流形上获得更好的聚类结果,但对变量的初始化比较敏感。另外,标准的SNMF算法利用误差平方和来衡量分解的质量,对噪声和异常值敏感。为了解决这些问题,在集成学习视角下,提出一种鲁棒自适应对称非负矩阵分解聚类算法RS3NMF(robust self-adaptived symmetric nonnegative matrix factorization)。基于L2,1范数的RS3NMF模型缓解了噪声和异常值的影响,保持了特征旋转不变性,提高了模型的鲁棒性。同时,在不借助任何附加信息的前提下,利用SNMF对初始化特征的敏感性来逐步增强聚类性能。采用交替迭代方法优化,并保证目标函数值的收敛性。大量实验结果表明,所提RS3NMF算法优于其他先进的算法,具有较强的鲁棒性。  相似文献   

7.
研究了语义数据的聚类问题,提出了一种基于样本内在结构的结构嫡聚类SEC算法。通过给出语义属性相异性度量测度的新定义,挖掘蕴含于数据样本中的结构信息,提出了一种根据结构信息计算样本信息嫡的优化方法,即通过嫡来确定样本的聚类中心,从而完成样本的聚类,并把此方法向异构数据进行了拓展。SEC算法能实现不平衡数据的聚类,能自动确定初始类中心和聚类数目,具有无需迭代、效率高和相当的鲁棒性优势。实验表明,算法是有效的,与文献中的已有方法相比,聚类准确率得到显著提高,具有一定的实用价值。  相似文献   

8.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

9.
对于概率模糊聚类,贝叶斯模糊聚类方法表现出良好的聚类性能,它从先验知识和贝叶斯理论的角度出发,采用最大后验概率理论处理模糊划分,进而获取最终的聚类结果.该方法有效地结合了概率论和模糊论两者的优点,较之传统的模糊聚类算法(如FCM算法),该方法能够获取全局最优解并估计聚类个数.但在大数据时代,该方法较高的时间复杂度限制了它的实用性.针对此问题,首先在贝叶斯模糊聚类中引入加权机制,提出了加权贝叶斯模糊聚类算法;然后将其与单趟聚类框架相结合,提出了面向大规模数据的快速单趟贝叶斯模糊聚类算法,并从理论上对相关性质进行了较为深入的分析.所提出的单趟贝叶斯模糊聚类新算法较之贝叶斯模糊聚类算法在时间复杂度和收敛性上均有着不同程度的性能提升,同时继承了贝叶斯模糊聚类的良好的聚类性能.最后,相关实验结果亦验证了所提方法的有效性.  相似文献   

10.
传统谱聚类算法受高斯核尺度参数的影响较大,对噪声点较为敏感,并且不能利用先验信息指导聚类过程。针对以上问题,提出了一种基于路径相似度测量的鲁棒性谱聚类算法(RPB-SC)。该算法将路径聚类与谱聚类算法相结合,通过定义高斯核的邻域加权尺度因子计算相似度,再用路径聚类思想对全局相似度进行调节,同时通过成对限制先验信息辅助聚类搜索。在人工数据集和真实数据集上的实验表明,新提出的算法能有效减弱高斯核尺度参数的影响,增强对噪声点的鲁棒性,提高聚类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号