首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

2.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

3.
一种基于克隆选择的聚类算法   总被引:3,自引:0,他引:3  
罗印升  李人厚  张维玺 《控制与决策》2005,20(11):1261-1264
将克隆选择原理同典型的划分聚类方法结合起来,提出一种克隆选择聚类算法.该算法具有完成任意形状数据集聚类的能力,可以自动确定簇的数目并得到簇的描述信息,计算量小,参数设置容易,适用于具有实值连续属性的数据集.基于模拟数据集和基准数据集分别进行实验,结果表明该算法是有效的.  相似文献   

4.
针对混合属性空间中具有同一(或相近)分布特性的带类别标记的小样本集和无类别标记的大样本数据集,提出了一种基于MST的自适应优化相异性度量的半监督聚类方法。该方法首先采用决策树方法来获取小样本集的"规则聚类区域",然后根据"同一聚类的数据点更为接近"的原则自适应优化建构在该混合属性空间中的相异性度量,最后将优化后的相异性度量应用于基于MST的聚类算法中,以获得更为有效的聚类结果。仿真实验结果表明,该方法对有些数据集是有改进效果的。为进一步推广并在实际中发掘出该方法的应用价值,本文在最后给出了一个较有价值的研究展望。  相似文献   

5.
面向多敏感属性医疗数据发布的隐私保护技术   总被引:1,自引:0,他引:1  
金华  刘善成  鞠时光 《计算机科学》2011,38(12):171-177
针对目前多敏感属性医疗数据发布问题,在分析多维桶分组技术的基础上,继承了有损连接对隐私数据进行保护的思想,提出了一种基于相同敏感属性集的L-覆盖性聚类分组方法。首先计算每条记录的相同敏感属性集,然后按照聚类的思想将满足L-覆盖性的记录进行分组。同时给出了L-覆盖性聚类分组的实现算法(LCCU)。实际数据集上的大量实验结果表明,该方法可以有效防止隐私泄露,同时增强数据的可用性。  相似文献   

6.
由于客观世界的复杂性,信息缺失、不确定信息是普遍存在的。数据库作为表达现实世界的一种工具,使用空值来表达信息缺失的问题。针对关系数据库中的空值问题,提出一种基于模糊聚类和线性回归的空值估计方法。该方法首先对数据表中的数据进行挖掘,找出与被估计属性相关联的属性集。该过程仅利用数据本身提供的信息,避免了由专家决定条件属性时由于主观性造成的误差。其次根据所得属性集进行模糊聚类得到对原始数据的一个划分,再基于所得分簇和线性回归给出一个估计关系表中空值的方法。最后利用平均绝对错误率来衡量算法估值的准确率。实验结果表明该方法估值的结果与其他方法相比具有较高的准确率。  相似文献   

7.
以属性论为理论依据,分析了个性数据属性与属性重心剖分模型的关系,在属性线性坐标系中表示数据属性集对象重心点,从而得到聚类程度函数和聚类算法。该模型有效地描述了个性化数据属性间的语义关系。  相似文献   

8.
陈爱国  王士同 《控制与决策》2016,31(12):2122-2130
针对传统模糊聚类在大规模数据场景下, 由于内存的限制不能一次装载所有数据, 以及在通过聚类捕捉数据的潜在结构和描述各个类时仅使用单个代表点存在信息量不足的问题, 提出一种基于多代表点的大规模数据模糊聚类算法. 该算法通过对大规模数据进行分块, 在对每个数据块进行聚类时使用多个代表点描述捕捉到的数据的潜在结构和各个类信息, 并通过考虑代表点与代表点之间在聚类过程中的约束关系, 提高最后聚类结果的精度. 在模拟数据集和真实数据集上的3组实验验证了所提出算法的有效性.  相似文献   

9.
数据集成是解决多数据源整合问题的有效手段.如何准确高效地集成多数据源模式具有重要研究意义.关于模式集成已有大量的研究工作,但均忽略了用户使用信息.在用户使用信息的基础上提出一种新颖的基于聚类技术的多模式数据集成方法.首先从数据库的查询日志中为模式属性提取特征向量,并对其进行聚类.然后根据结果聚类间的最小差异性,为每个结果聚类引入最大相似性阈值,利用该阈值发现结果聚类中与该类语义不相似的异常属性.最后针对结果聚类中的3类异常属性,设计3种异常属性去除规则,进一步提出异常属性去除算法EPKO.实验结果表明,该方法具有较高的准确度,可以有效地解决多个模式的集成问题.  相似文献   

10.
一种高效的属性图聚类方法   总被引:1,自引:0,他引:1  
吴烨  钟志农  熊伟  陈荦  景宁 《计算机学报》2013,36(8):1704-1713
图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性.  相似文献   

11.
为了满足数据分析中获取含有混合属性的数据集聚类的边界需求, 提出一种混合属性数据集的聚类边界检测算法(BERGE). 该算法利用模糊聚类隶属度定义边界因子以识别候选边界集, 然后运用证据积累的思想提取聚类的边界. 在综合数据集和真实数据集上的实验结果表明, BERGE 算法能有效地检测混合属性数据集、数值属性数据集以及分类属性数据集的聚类边界, 与现有同类算法相比具有更高的精度.  相似文献   

12.
牛雷  孙忠林 《计算机科学》2018,45(2):226-230
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。  相似文献   

13.
李克潮  凌霄娥 《计算机应用》2013,33(10):2804-2806
针对传统推荐系统数据稀疏、相似性计算方法导致共同评分用户少的问题,提出利用云模型定性概念与定量数值转换的优势,研究云模型、用户聚类的个性化推荐改进算法。用户对项目属性评价的偏好,转换为用户对加权综合云模型表示的数字特征的偏好。利用改进的聚类算法,对评分数据、原始用户属性标准化后的信息进行聚类;同时考虑用户兴趣的变化,结合用户之间项目属性评价的综合云模型的相似度、用户对项目评分的聚类、用户属性聚类这三种方法产生的邻居用户的并集进行推荐。理论分析和实验结果表明,提出的改进算法不但解决数据稀疏性带来的共同评分用户少的弊端,即使是在新用户的情况下,仍能获得较低的平均绝对误差和平均平方误差  相似文献   

14.
针对现有决策树模型在分类过程中没有考虑决策者对结果的偏好行为,因而不能很好的预测具有明显偏好倾向问题的不足,提出了一种偏好敏感决策树(Preference Sensitive Decision Tree, PSDT)分类算法。该算法引入了偏好度和偏好代价的概念,并通过综合考虑属性信息和有效偏好,构建新型属性选择因子和基于有效偏好的结点类标号分配准则。通过自适应调整偏好度,可生成最佳偏好敏感决策树。实验结果证明该算法既能实现对偏好类的高精度预测,同时能够保证决策树拥有良好的整体精度,且具有较高的有效性和实用性,能够很好的解决偏好敏感环境下的决策问题。  相似文献   

15.
基于核密度估计的分布数据流离群点检测   总被引:3,自引:1,他引:2  
基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性.  相似文献   

16.
基于人工鱼群的优化K-means聚类算法   总被引:3,自引:2,他引:1  
针对K-means算法全局搜索能力不足,提出基于人工鱼群的优化K-means聚类算法(AFS-KM),该算法克服了Kmeans聚类算法对初始聚类中心选择的敏感问题,能够获得全局最优的聚类划分。在聚类过程中,采用一种基于信息增益的属性加权的实体之间距离计算方法进行聚类划分时,对于球形数据和椭球形数据都能够获得理想的聚类划分结果。对KDD-99数据集的仿真实验结果表明,该算法在网络入侵检测时获得了理想的检测率和误报率。  相似文献   

17.
In this paper, a remote sensing image segmentation procedure that utilizes a single point iterative weighted fuzzy C-means clustering algorithm is proposed based upon the prior information. This method can solve the fuzzy C-means algorithm's problem that the clustering quality is greatly affected by the data distributing and the stochastic initializing the centrals of clustering. After the probability statistics of original data, the weights of data attribute are designed to adjust original samples to the uniform distribution, and added in the process of cyclic iteration, which could be suitable for the character of fuzzy C-means algorithm so as to improve the precision. Furthermore, appropriate initial clustering centers adjacent to the actual final clustering centers can be found by the proposed single point adjustment method, which could promote the convergence speed of the overall iterative process and drastically reduce the calculation time. Otherwise, the modified algorithm is updated from multidimensional data analysis to color images clustering. Moreover, with the comparison experiments of the UCI data sets, public Berkeley segmentation dataset and the actual remote sensing data, the real validity of proposed algorithm is proved.  相似文献   

18.
董晓君  程春玲 《计算机科学》2018,45(11):244-248
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。  相似文献   

19.
The fuzzy c-means (FCM) algorithm is a widely applied clustering technique, but the implicit assumption that each attribute of the object data has equal importance affects the clustering performance. At present, attribute weighted fuzzy clustering has became a very active area of research, and numerous approaches that develop numerical weights have been combined into fuzzy clustering. In this paper, interval number is introduced for attribute weighting in the weighted fuzzy c-means (WFCM) clustering, and it is illustrated that interval weighting can obtain appropriate weights more easily from the viewpoint of geometric probability. Moreover, a genetic heuristic strategy for attribute weight searching is proposed to guide the alternating optimization (AO) of WFCM, and improved attribute weights in interval-constrained ranges and reasonable data partition can be obtained simultaneously. The experimental results demonstrate that the proposed algorithm is superior in clustering performance. It reveals that the interval weighted clustering can act as an optimization operator on the basis of the traditional numerical weighted clustering, and the effects of interval weight perturbation on clustering performance can be decreased.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号