首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
面向范畴数据的序列化信息瓶颈算法(CD-sIB)假设数据各个属性特征对二元化转化的贡献均匀,从而影响转化效果。文中提出二元化加权转化方法来反映非共现数据的特征。该方法通过突出非共现数据的代表性属性,从抑制非代表性(冗余)属性,从而获取最佳共现表示。文中提出随机分布数据的适用性和计算方法的无监督性两个非共现加权原则,并基于加权粒度概念构造二元化加权转化算法。实验结果表明,文中算法的聚类精度优于其它算法。  相似文献   

2.
针对数据中多视角模式挖掘的问题,提出一个基于IB方法的无冗余多视角聚类算法:NrMIB.该算法一方面采用IB思想来最大化地保存聚类结果中的信息量,以确保高质量的聚类结果;另一方面通过最小化聚类结果与已知数据划分模式间的互信息来确保新的聚类结果相对于已知划分模式是无冗余的.NrMIB算法既适宜于分析共现数据,又适宜于分析欧氏空间非共现数据,可挖掘出数据中线性及非线性可分模式,无需额外参数来估算欧氏空间的信息量.在人工构造数据模式识别、人脸识别和文档聚类上的实验结果表明,NrMIB算法可有效地挖掘出数据中所蕴含的多个合理划分模式,性能优于传统单视角聚类算法及3个现有的无冗余多视角聚类算法.  相似文献   

3.
序列化信息瓶颈 (Sequential information bottleneck, sIB) 算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,从而削弱了聚类效果。本文提出了赋权联合概率模型概念,采用互信息度量属性重要度,并构建赋权联合概率模型来优化数据表示,从而达到突出代表性属性、抑制冗余属性的目的。UCI数据集上的实验表明,基于赋权联合概率模型的WJPM_sIB算法优于sIB算法,在F1评价下,WJPM_sIB算法聚类结果比sIB算法提高了5.90%。  相似文献   

4.
在数据流聚类时,冗余特征会影响数据的聚类质量,移除冗余特征以提高聚类质量就显得尤为重要.为解决此问题,提出一种基于特征选择的数据流聚类算法(DSCFC).该算法应用了特征排序、特征等级评定、探测冗余不重要的特征、移除冗余特征算法等.实验结果表明,DSCFC算法能探测出数据流中隐含的冗余特征并移除冗余特征,在对有冗余特征的数据流聚类时,比CluSteam算法更有效,聚类质量更好.  相似文献   

5.
基于属性权重的Fuzzy C Mean算法   总被引:16,自引:0,他引:16  
提出CF-WFCM算法,该算法分为属性权重学习算法和聚类算法两部分.属性权重学习算法,从数据自身的相似性出发,通过梯度递减算法极小化属性评价函数CFuzziness(ω),为每个属性赋予一个权重.将属性权重应用于Fuzzy C Mean聚类算法,得到CF-WFCM算法的聚类算法.CF-WFCM算法强化重要属性在聚类过程中的作用,消减冗余属性的作用,从而改善聚类的效果.我们选取了部分UCI数据库进行实验,实验结果证明:CF-WFCM算法的聚类结果优于FCM算法的聚类结果.函数CFuzziness(ω)不仅可以评价属性的重要性,而且可以评价属性评价函数的优劣.实验说明了这一问题.最后我们对CF-WFCM算法进行了讨论.  相似文献   

6.
实时攻击数据集含有缺失属性和大量非攻击样本,呈现属性分布不完全和类分布偏斜的特点,不利于聚类分析。针对此问题,提出了一种面向不完全攻击数据集的两阶段聚类算法。算法首先利用标准2-类支持向量机分离数据集中的非攻击样本,使类分布均衡。提出一种不完全样本间的距离度量方法,将该方法应用于最近邻间隔模糊C均值算法实现聚类。实验结果表明,与现有算法相比,提出的算法有效地提高了聚类准确率。  相似文献   

7.
Chameleon算法的改进   总被引:1,自引:1,他引:0  
结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.  相似文献   

8.
基于约简数据集的FCM聚类算法   总被引:1,自引:0,他引:1  
为了解决模糊C-均值(FCM)聚类算法在使用欧氏距离计算样本与类中心点的距离时计算量大的问题,提出了一种基于属性约简的FCM聚类算法.该算法根据粗糙集理论对初始数据进行属性约简,消除数据对象中的冗余值,然后再对约简后的属性集进行模糊聚类.实验结果表明,该算法能有效减少FCM算法的距离函数计算量,在不降低聚类精度的前提下,提高了FCM算法的执行效率.  相似文献   

9.
徐鲲鹏  陈黎飞  孙浩军  王备战 《软件学报》2020,31(11):3492-3505
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.  相似文献   

10.
软件缺陷预测先前的研究工作主要关注软件缺陷分类问题,即判断一个软件模块是否含有缺陷。如何量化一个软件模块中含有软件缺陷的数量问题还未被很好地研究。针对该问题,提出了一种两阶段的软件模块缺陷数预测特征选择方法FSDNP:特征聚类阶段和特征选择阶段。在特征聚类阶段中,使用基于密度峰聚类的算法将高度相关的特征进行聚类;在特征选择阶段,设计了三种启发式的排序策略从簇中删除冗余的和无关的特征。在PROMISE数据集上,使用平均错误率和平均相对错误率指标,与6个经典的方法进行了比较。实验结果表明,FSDNP能够有效移除冗余的和无关的特征,构建高效的软件缺陷数预测模型。  相似文献   

11.
聚类技术可以用于对具有动态、随机和异步并发特性的出租车对象进行分类。但是,现有的聚类技术认为每个出租车样本对聚类的贡献相同,没有考虑到不同样本的不同影响,这在一定程度上影响了聚类的精度。提出了一种基于样本权重的出租车聚集区识别算法--SFTA_IB算法,算法引入了样本权重来充分反映不同样本的贡献度。在此基础上,将出租车视为原变量X,出租车坐标数据视为相关变量Y,目标是寻求压缩变量T,在T中最大化保留相关变量的信息。实验表明,SFTA_IB算法可以准确识别目标样本周边的出租车聚集区,针对性地指导目标出租车个体的巡游线路,提高乘客搜寻效率。  相似文献   

12.
With the wide applications of Gaussian mixture clustering, e.g., in semantic video classification [H. Luo, J. Fan, J. Xiao, X. Zhu, Semantic principal video shot classification via mixture Gaussian, in: Proceedings of the 2003 International Conference on Multimedia and Expo, vol. 2, 2003, pp. 189-192], it is a nontrivial task to select the useful features in Gaussian mixture clustering without class labels. This paper, therefore, proposes a new feature selection method, through which not only the most relevant features are identified, but the redundant features are also eliminated so that the smallest relevant feature subset can be found. We integrate this method with our recently proposed Gaussian mixture clustering approach, namely rival penalized expectation-maximization (RPEM) algorithm [Y.M. Cheung, A rival penalized EM algorithm towards maximizing weighted likelihood for density mixture clustering with automatic model selection, in: Proceedings of the 17th International Conference on Pattern Recognition, 2004, pp. 633-636; Y.M. Cheung, Maximum weighted likelihood via rival penalized EM for density mixture clustering with automatic model selection, IEEE Trans. Knowl. Data Eng. 17(6) (2005) 750-761], which is able to determine the number of components (i.e., the model order selection) in a Gaussian mixture automatically. Subsequently, the data clustering, model selection, and the feature selection are all performed in a single learning process. Experimental results have shown the efficacy of the proposed approach.  相似文献   

13.
There are many important issues that need to be resolved for identification of a fuzzy rule-based system using clustering. We address three such important issues: 1) deciding on the proper domain(s) of clustering; 2) deciding on the number of rules; and 3) getting an initial estimate of parameters of the fuzzy systems. We justify that one should start with separate clustering of X (input) and Y (output). We propose a scheme to establish correspondence between the clusters obtained in X and Y. The correspondence dictates whether further splitting/merging of clusters is needed or not. If X and Y do not exhibit strong cluster substructures, then again clustering of X* (input data augmented by the output data) exploiting the results of separate clustering of X and Y, and of the correspondence scheme is recommended. We justify that usual cluster validity indices are not suitable for finding the number of rules, and the proposed scheme does not use any cluster validity index. Three methods are suggested to get the initial estimate of membership functions (MFs). The proposed scheme is used to identify the rule base needed to realize a self-tuning fuzzy PI-type controller and its performance is found to be quite satisfactory.  相似文献   

14.
15.
王晓明  印莹 《计算机科学》2007,34(8):171-176
DNA微阵列技术使同时监测成千上万的基因表达水平成为可能.直接把传统聚类算法用于高维基因表达数据分析会受到"维难"的困扰.特征转换和特征选择是两种常用的降维方式,但前者产生的新特征难以用原来的领域知识解释,后者通常会丢失信息.另外,传统的聚类算法通常由用户指定聚类参数,参数设置不同对聚类结果有很大的影响.针对上述问题,本文提出了一种新的基于迭代扩张的微阵列数据聚类算法-CIS.它不采用特征转换和特征选择的方式,并自动确定聚类参数.CIS反复用最新得到的样本聚簇得到新的聚类基因,然后以新的基因聚簇为特征重新聚类样本,逐步求精,最终的结果容易解释且避免了信息的丢失.该方法降低了由于用户缺少领域知识引起的实验误差.CIS算法被应用于两个真实的微阵列数据集,实验结果证实了算法的有效性.  相似文献   

16.
现有的深度聚类算法大多采用对称的自编码器来提取高维数据的低维特征,但随着自编码器训练次数的不断增加,数据的低维特征空间在一定程度上发生了扭曲,这样得到的数据低维特征空间无法反映原始数据空间中潜在的聚类结构信息.为了解决上述问题,本文提出了一种新的深度嵌入K-means算法(SDEKC).首先,在低维特征提取阶段,在对称的卷积自编码器中相对应的编码器与解码器之间以一定的权重加入两个跳跃连接,以减弱解码器对编码器的编码要求同时突出卷积自编码器的编码能力,这样可以更好地保留原始数据空间中蕴含的聚类结构信息;其次,在聚类阶段,通过一个标准正交变换矩阵将低维数据空间转换为一个新的揭示聚类结构信息的空间;最后,本文以端到端的方式采用贪婪算法迭代优化数据的低维表示及其聚类,在6个真实数据集上验证了本文提出新算法的有效性.  相似文献   

17.
提出基于信息熵特征选择和信息瓶颈算法的图像聚类算法,首先提取图像的Gabor小波纹理特征和灰度共生矩阵纹理特征,然后采用信息熵特征选择方法进行特征降维;图像聚类方法很多,其中较为典型的k-means聚类算法,但它过分依赖距离函数和聚类中心的选择,采用信息瓶颈算法对图像进行聚类,信息瓶颈算法不需要定义距离函数,它考虑了样本与特征的关系,不仅压缩了样本的信息,同时又考虑保留特征信息。实验结果表明,提出的方法具有良好的聚类效果。  相似文献   

18.
在社会化标记系统中,常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高.针对此问题,提出一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果.  相似文献   

19.
The K-means Iterative Fisher (KIF) algorithm is a robust, unsupervised clustering algorithm applied here to the problem of image texture segmentation. The KIF algorithm involves two steps. First, K-means is applied. Second, the K-means class assignments are used to estimate parameters required for a Fisher linear discriminant (FLD). The FLD is applied iteratively to improve the solution. This combined K-means and iterative FLD is referred to as the KIF algorithm. Two KIF implementations are presented: a mixture resolving approach is extended to an unsupervised binary hierarchical approach. The same binary hierarchical KIF algorithm is used to properly segment images even though the number of classes, the class spatial boundaries, and the number of samples per class vary. The binary hierarchical KIF algorithm is fully unsupervised, requires no a priori knowledge of the number of classes, is a non-parametric solution, and is computationally efficient compared to other methods used for clustering in image texture segmentation solutions. This unsupervised methodology is demonstrated to be an improvement over other published texture segmentation results using a wide variety of test imagery. Gabor filters and co-occurrence probabilities are used as texture features.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号