首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
传统[K]-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始[K]-modes算法及其改进算法均有显著的效果。  相似文献   

2.
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法——覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

3.
朱永红 《微机发展》2007,17(1):123-124
聚类算法是数据挖掘的核心技术。介绍了几类主要的传统聚类算法,给出了每类算法的基本概念、基本原理、各类表示聚类的算法以及这些算法的特征。然后再提出了一种新的聚类算法———覆盖聚类算法,给出了该算法的具体步骤,并对模糊聚类算法和该算法用实验的方式进行比较,证明了覆盖聚类算法的可行性和有效性。最后分析了当前聚类算法存在的问题和发展方向。  相似文献   

4.
在椭圆曲线密码系统中,其核心操作是点乘运算κP,P是椭圆曲线上的点,忌是整数。怎样提高点乘计算速度,已成为热点研究领域。本文提出了一种新的基于整数拆分与预计算相结合的快速点乘算法。  相似文献   

5.
在获取动态信息的基础上,研究了UML活动图的呈现技术,给出在Rose中呈现活动图的算法,论述了表示进程创建关系的Fork类型动态信息和表示进程同步关系的Wait类型动态信息的呈现和基于对象流的进程间通信关系呈现。最后,通过实际的系统验证了该算法的有效性。  相似文献   

6.
近年来稀疏表示技术在信号处理、图像处理、目标识别、盲源分离等领域都有着突出的贡献. 为了全面的了解和分析现有稀疏表示优化算法, 首先回顾了稀疏表示技术的历史进程, 简单描述了稀疏表示技术的原理, 然后将稀疏表示优化算法分为贪心算法和约束算法以及其他算法三大类, 具体分析了前两种类别算法的原理和特征, 介绍了两类算法的代表算法, 总结了算法的发展进程, 并对贪心算法中的五种代表算法进行了简单对比, 最后总结了稀疏表示技术在各个领域的应用情况, 并针对存在的问题对未来的发展方向进行了分析, 以期为研究者们提供有益参考.  相似文献   

7.
基于有向带权图的页面聚类算法研究   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系.  相似文献   

8.
利用多群体PSO算法生成分类规则   总被引:1,自引:0,他引:1  
本文通过对PSO算法模型和分类模型的分析,提出了应用多群体PSO算法实现分类规则的方法。这种方法将c(c≥2)类问题看成是c个两类问题,应用c个微粒群表示c类规则,每个微粒群应用PSO算法实现对连续变量空间的分类。最后,在五个数据集上的实验结果表明了此方法的可行性和有效性,并与C4.5算法的结果进行了比较。  相似文献   

9.
针对图像训练样本中存在噪声等情况,提出一种基于鉴别性低秩表示的2阶段人脸识别算法。该算法第1阶段是对所有训练样本进行低秩处理,筛选出M类与测试样本最相近的样本用于粗分类;第2阶段使用第1阶段筛选出来的样本做鉴别性低秩表示处理,并使用稀疏线性表示进行精细分类,决定测试样本最适合的类标签。本算法结合了低秩算法与稀疏算法的优点,在标准人脸库上的实验表明本算法表现优越。  相似文献   

10.
从多角度分析现有聚类算法   总被引:51,自引:3,他引:51  
钱卫宁  周傲英 《软件学报》2002,13(8):1382-1394
聚类是数据挖掘中研究的重要问题之一.聚类分析就是把数据集分成簇,以使得簇内数据尽量相似,簇间数据尽量不同.不同的聚类方法采用不同的相似测度和技术.从以下3个角度分析现有流行聚类算法: (1)聚类尺度; (2)算法框架; (3)簇的表示.在此基础上,分析了一些综合或概括了一些其他方法的算法.由于分析从3个角度进行,所提出的方法能够涵盖,并区分绝大多数现有聚类算法.所做的工作是自调节聚类方法以及聚类基准测试研究的基础.  相似文献   

11.
The k-means algorithm is well known for its efficiency in clustering large data sets. However, working only on numeric values prohibits it from being used to cluster real world data containing categorical values. In this paper we present two algorithms which extend the k-means algorithm to categorical domains and domains with mixed numeric and categorical values. The k-modes algorithm uses a simple matching dissimilarity measure to deal with categorical objects, replaces the means of clusters with modes, and uses a frequency-based method to update modes in the clustering process to minimise the clustering cost function. With these extensions the k-modes algorithm enables the clustering of categorical data in a fashion similar to k-means. The k-prototypes algorithm, through the definition of a combined dissimilarity measure, further integrates the k-means and k-modes algorithms to allow for clustering objects described by mixed numeric and categorical attributes. We use the well known soybean disease and credit approval data sets to demonstrate the clustering performance of the two algorithms. Our experiments on two real world data sets with half a million objects each show that the two algorithms are efficient when clustering large data sets, which is critical to data mining applications.  相似文献   

12.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

13.
模糊-Modes聚类算法针对分类属性的数据进行聚类,使用爬山法来寻找最优解,因此该算法对初始值较为敏感。为了克服该缺点,提出一种动态的模糊K—Modes初始化算法,该方法能够自动确定聚类数目,以及对应的聚类中心;而且能够应用于数值属性和分类属性相混合的数据集。该初始化算法可以有效地克服模糊K—Modes算法对初值的敏感性。实验的结果表明了该初始化算法的可行性和有效性。  相似文献   

14.
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。  相似文献   

15.
如何在保护数据隐私的同时进行可用性的数据挖掘已成为热点问题。鉴于在很多实际应用场景中,很难找到一个真正可信的第三方对用户的敏感数据进行处理,文中首次提出了一种支持本地化差分隐私技术的聚类方案——LDPK-modes(Local Differential Privacy K-modes)。与传统的基于中心化差分隐私的聚类算法相比,其不再需要一个可信的第三方对数据进行收集和处理,而由用户担任数据隐私化的工作,极大地降低了第三方窃取用户隐私的可能性。用户使用满足本地d-隐私(带有距离度量的本地差分隐私技术)定义的随机响应机制对敏感数据进行扰动,第三方收集到用户扰动数据后,恢复其统计特征,生成合成数据集,并进行k-modes聚类。在聚类过程中,将数据集上频繁出现的特征分配给初始聚类中心点,进一步提高了聚类结果的可用性。理论分析和实验结果表明了LDPK-modes的隐私性和聚类可用性。  相似文献   

16.
运用菜单法问卷的调查方式,以江苏省无锡市区消费者为调查对象,以可追溯猪肉为案例,基于改进的k-modes聚类方法,研究消费者对猪肉可追溯属性的支付意愿。改进的k-modes聚类方法优化初始聚类中心选取从而简化聚类过程,以考虑可追溯属性的所有属性值的模式代替聚类的modes,从而提高聚类精确性。实验结果表明,消费者可分为不重视可追溯信息类、重视养殖信息类、重视可追溯信息类、重视养殖信息及政府认证类四个群体。可针对不同的群体提供不同的可追溯属性的组合的猪肉以扩大消费者对可追溯食品的需求,提高食品安全保障水平。  相似文献   

17.
On the impact of dissimilarity measure in k-modes clustering algorithm   总被引:3,自引:0,他引:3  
This correspondence describes extensions to the k-modes algorithm for clustering categorical data. By modifying a simple matching dissimilarity measure for categorical objects, a heuristic approach was developed in (Z. He, et al., 2005), (O. San, et al., 2004) which allows the use of the k-modes paradigm to obtain a cluster with strong intrasimilarity and to efficiently cluster large categorical data sets. The main aim of this paper is to rigorously derive the updating formula of the k-modes clustering algorithm with the new dissimilarity measure and the convergence of the algorithm under the optimization framework  相似文献   

18.
Loop细分曲面的优化拟合算法   总被引:1,自引:0,他引:1  
提出一种用于构造给定三维模型的拟合Loop细分曲面的迭代优化算法,使得拟合曲面与原始模型之间的逼近误差最小.算法中的逼近误差定义为原始模型各面元到拟合曲面最小距离的积分.与Loop细分小波分解算法的比较表明,该算法以适度的运行时间代价得到了更优的结果.此外,该算法还可以加以推广,作为一类从输入模型生成其近似表示的优化算法的基础.  相似文献   

19.
A fuzzy k-modes algorithm for clustering categorical data   总被引:12,自引:0,他引:12  
This correspondence describes extensions to the fuzzy k-means algorithm for clustering categorical data. By using a simple matching dissimilarity measure for categorical objects and modes instead of means for clusters, a new approach is developed, which allows the use of the k-means paradigm to efficiently cluster large categorical data sets. A fuzzy k-modes algorithm is presented and the effectiveness of the algorithm is demonstrated with experimental results  相似文献   

20.
机器学习回归方法被广泛应用于复杂工业过程的软测量建模k-最近邻(kNN)算法是一种流行的学习算法,可用于函数回归问题.然而,传统kNN算法存在运行效率低、距离计算忽略特征权值的缺点.本文引入了二次型距离定义和样本集剪辑算法,改进了传统kNN回归算法,并将改进的算法用于工业过程软测量建模.仿真实验得到了一些有益的结论.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号