首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

2.
针对属性值为毕达哥拉斯二元语义数(P2TLN)的多属性决策问题,考虑到决策者的有限理性行为,提出基于前景理论的偏好顺序结构排序法(PROMETHEE)的决策方法。首先,介绍毕达哥拉斯二元语义集的相关概念,并对现有P2TLN的距离进行改进,提出一种基于得分函数和精确函数的P2TLN距离,并证明其性质;其次,为体现决策者在比较决策信息时的风险偏好,利用前景价值函数构造P2TLN的优先函数,并以此对方案进行两两比较,从而计算各方案的净流量,进而对各方案进行排序。最后,通过物流公司的评估实例说明所提方法的可行性和有效性。  相似文献   

3.
定义了犹豫正态模糊元及其运算法则、得分函数、Euclidean距离等概念;提出了广义犹豫正态模糊有序加权平均算子,并研究其性质,该算子不仅尽可能多地保留决策者的偏好信息,还可依据决策者的主观意愿选择不同的参数和属性权重,使得决策结果达到决策者的期望值;紧接着对属性权重和算子参数赋予不同的数值,获取广义犹豫正态模糊有序加权平均算子的若干种特殊算子,并探讨两个常用算子的大小关系;针对属性权重完全未知的多属性群决策问题,构建一种基于广义犹豫正态模糊有序加权平均算子的群决策方法。该方法利用同一属性下所有方案属性值间的距离求得最优权重,然后将同一方案下各属性值集结成为综合属性值,进而得到方案优劣排序。通过实例分析说明该方法的可行性和有效性。  相似文献   

4.
区间型多属性决策的心态指标法   总被引:6,自引:1,他引:5  
针对决策者偏好信息和属性值均为区间数的多属性决策问题,提出一种新的决策方法.该方法将区间型决策矩阵转化为带心态指标的决策矩阵,通过求解主、客观偏好的总绝对偏差最小与各方案综合属性值差距最大的双目标规划问题,客观地确定了属性的权重,从而给出各方案的排序结果.当决策者处于不同心态时,可以通过调整其心态指标来进行决策,因而更加符合实际.应用实例表明了该方法的有效性和实用性.  相似文献   

5.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

6.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

7.
提出了一种基于新相异度量的模糊K-Modes算法。该算法假定不同属性对聚类结果有不同程度的影响,定义了新的属性值函数,以基于划分相似度的聚类精确度作为聚类结果的评价准则。通过真实数据的实验结果表明,新的基于相异度量的模糊K-Modes算法比传统的模糊K-Modes算法有更好的聚类效果。  相似文献   

8.
提出一种二叉树Entropy-SVM的改进算法,并将其引入芒果分类检测系统.针对传统SVM在多类分类方式及类区分性度量上的不足,首先对样本系统中任意二类问题,把相同的特征属性值信息熵作为样本类别归属的影响因子,然后把样本的平均属性值信息熵定义为二类间的区分因子,由该定义计算二类间的区分度来得到样本系统中每一类的平均区分度.最后把平均区分度的高低作为二叉树SVM多类分类策略的依据,度值越高的类,越早分离.芒果分类检测试验表明,改进的二叉树Entropy-SVM分类检测的准确率明显高于传统SVM多类分类算法.  相似文献   

9.
一种多属性决策问题的分类方法研究   总被引:2,自引:0,他引:2  
孙昭旭  韩敏  邱菀华 《控制与决策》2006,21(2):171-0174
针对多属性决策的分类问题,基于方案间的赋值级别高于关系,提出一种多属性决策分类法.首先描述了多属性决策的分类问题;然后通过方案间赋值的级别高于关系和线性规划模型,得到一种符合决策者偏好的多属性决策分类方法,从而对方案进行归类.该方法克服了使用传统的ELECTRE Ⅱ方法时,定义的有序方案对之间的赋值级别高于关系导出属性权重的困难,并将否决因素考虑进来.最后通过一个数值例子说明了该方法的有效性.  相似文献   

10.
传统的粗糙集理论主要是针对单层次决策表的属性约简和决策规则获取研究.然而,现实中树型结构的属性值分类是普遍存在的.针对条件属性具有属性值分类的情况,结合全子树泛化模式,提出一种多层次粗糙集模型,分析决策表在不同层次泛化空间下相关性质.结合基于正区域的属性约简理论,提出属性值泛化约简概念讨论二者之间的关系,同时证明求解泛化约简是一个NP Hard问题.为此,提出一种基于正区域的的启发式泛化约简算法,该算法采用自顶向下逐步细化搜索策略,能够在保持原始决策表正区域不改变的前提下,将决策表所有属性值泛化到最佳层次.理论分析和仿真实验表明,泛化约简方法能提高知识发现的层次和泛化能力.  相似文献   

11.
陈黎飞  郭躬德 《软件学报》2013,24(11):2628-2641
类属型数据广泛分布于生物信息学等许多应用领域,其离散取值的特点使得类属数据聚类成为统计机器学习领域一项困难的任务.当前的主流方法依赖于类属属性的模进行聚类优化和相关属性的权重计算.提出一种非模的类属型数据统计聚类方法.首先,基于新定义的相异度度量,推导了属性加权的类属数据聚类目标函数.该函数以对象与簇之间的平均距离为基础,从而避免了现有方法以模为中心导致的问题.其次,定义了一种类属型数据的软子空间聚类算法.该算法在聚类过程中根据属性取值的总体分布,而不仅限于属性的模,赋予每个属性衡量其与簇类相关程度的权重,实现自动的特征选择.在合成数据和实际应用数据集上的实验结果表明,与现有的基于模的聚类算法和基于蒙特卡罗优化的其他非模算法相比,该算法有效地提高了聚类结果的质量.  相似文献   

12.
鉴于传统的K-means聚类算法只限于处理数值型数据,将K-means算法扩展到分类型数据域,提出一种分类型数据聚类方法.根据与每个分类属性的每个值相关的数据分布信息,同时结合数据的纵向与横向分布来评价数据对象与类之间的差异性,定义了一种新的距离度量.该方法能发现同一属性不同值间的内在关系,并能有效地度量对象间的差异性.用UCI中的数据集对所提算法进行验证,实验结果表明了该算法具有较好的聚类效果.  相似文献   

13.
传统[K]-modes算法在分类属性聚类中有着广泛的应用,但是传统算法并不区分有序分类属性与无序分类属性。在区分这两种属性的基础上,提出了一种新的距离公式,并优化了算法流程。基于无序分类属性的距离数值,确定了有序分类属性相邻属性值之间距离数值的合理范围。借助有序分类属性蕴含的顺序关系,构建了有序分类属性的距离公式。计算样本点与质心距离之时,引入了簇内各属性值的比例作为总体距离公式的重要参数。综上,新的距离公式良好地刻画了有序分类属性的距离,并且平衡了两种不同分类属性距离公式之间的差异性。实验结果表明,提出的改进算法和距离公式在UCI真实数据集上比原始[K]-modes算法及其改进算法均有显著的效果。  相似文献   

14.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

15.
陈韡  王雷  蒋子云 《计算机应用》2010,30(8):2003-2005
通过对基于K-prototypes算法对混合属性数据处理的聚类问题进行研究,改进了K-prototypes算法中分类属性相异度计算公式,使之能更加精确反映样本间的差异;在此基础上提出了一种用于处理混合属性数据的聚类算法,并将改进后的算法应用于英语借词数据的聚类分析中。实验结果表明,与K-prototypes算法相比,改进后的算法具有更好的稳定性和更高的精度。  相似文献   

16.
距离与差异性度量是聚类分析中的基本概念,是许多聚类算法的核心内容。在经典的聚类分析中,度量差异性的指标是距离的简单函数。该文针对混合属性数据集,提出两种距离定义,将差异性度量推广成为距离、类大小等因素的多元函数,使得原来只适用于数值属性或分类属性数据的聚类算法可用于混合属性数据。实验结果表明新的距离定义和差异性度量方法可提高聚类的质量。  相似文献   

17.
Clustering is one of the most popular techniques in data mining. The goal of clustering is to identify distinct groups in a dataset. Many clustering algorithms have been published so far, but often limited to numeric or categorical data. However, most real world data are mixed, numeric and categorical. In this paper, we propose a clustering algorithm CAVE which is based on variance and entropy, and is capable of mining mixed data. The variance is used to measure the similarity of the numeric part of the data. To express the similarity between categorical values, distance hierarchy has been proposed. Accordingly, the similarity of the categorical part is measured based on entropy weighted by the distances in the hierarchies. A new validity index for evaluating the clustering results has also been proposed. The effectiveness of CAVE is demonstrated by a series of experiments on synthetic and real datasets in comparison with that of several traditional clustering algorithms. An application of mining a mixed dataset for customer segmentation and catalog marketing is also presented.  相似文献   

18.
密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果。针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题。同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD)。算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题。通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响。多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果。  相似文献   

19.
为了提升分类数据聚类集成的效果,提出了一种新的相关随机子空间聚类集成模型。该模型利用粗糙集理论将分类属性分解成相关和不相关子集,在相关属性子集上随机生成多个相关子空间并对分类数据进行聚类,通过集成多个较优且具差异性的聚类结果以获得最终的聚类划分。此外,将粗糙集约简概念应用于相关子空间属性数目的确定,有效地避免了参数对聚类结果的影响。UCI数据集实验表明,新模型的性能优于其他已有模型,说明了其有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号