首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 111 毫秒
1.
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分类型数据的聚类是学习算法中重要而又棘手的问题。传统的k-modes算法采用简单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他属性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明基于结构相似性的k-modes算法在伸缩性和准确率方面更有效。  相似文献   

2.
聚类是按照事物的某些属性,把事物分类,使类间的相似性尽量小,类内的相似性尽量大.将事物通过适当聚类,才能便于研究事物的内部规律,但客观世界中存在着大量界线不分明的问题,研究模糊聚类的方法正是为了解决这类问题.在对常规模糊聚类方法分析的基础上,提出了一种将自组织竞争神经网络技术运用于模糊聚类的一种方法,并以100种动物分类为例,进行了模拟试验,仿真结果证明这种方法进行模糊聚类的思想正确,方法可行,效果较好.  相似文献   

3.
自组织神经网络在模糊聚类中的应用研究   总被引:5,自引:0,他引:5  
刘建英  徐爱萍 《微机发展》2005,15(12):81-83,106
聚类是按照事物的某些属性,把事物分类,使类间的相似性尽量小,类内的相似性尽量大。将事物通过适当聚类,才能便于研究事物的内部规律,但客观世界中存在着大量界线不分明的问题,研究模糊聚类的方法正是为了解决这类问题。在对常规模糊聚类方法分析的基础上,提出了一种将自组织竞争神经网络技术运用于模糊聚类的一种方法,并以100种动物分类为例,进行了模拟试验,仿真结果证明这种方法进行模糊聚类的思想正确,方法可行,效果较好。  相似文献   

4.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

5.
为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法.引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇中每个数据属性中频率最高的属性值形成新的簇中心继续划分对象,迭代此步当满足目标条件时停止,形成最终聚类.在UCI数据集上的实验结果验证了该算法的有效性.  相似文献   

6.
传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。  相似文献   

7.
针对传统的k-匿名模型不能有效地解决数据发布中分类敏感属性的相似性攻击问题,提出了新的隐私保护模型——α-similarity k-anonymity模型.由于分类属性值并不是严格意义上有序的,目前缺少一种很好的方法来评价其相似程度.从语义学角度出发,采用分类树的框架来衡量等价类中敏感属性值的语义相似性.实验结果表明,...  相似文献   

8.
顾客作为产品满意度测度过程中评价决策的主体,对其进行分类研究,识别不同顾客群体异质评价特征具有重要意义。顾客评价特征存在多元性和冲突性,根本原因是顾客作为决策者的异质性,而顾客的异质性来源于顾客本身属性,包含分类型属性和数值型属性。提出了一种基于惩罚竞争机制的混合属性顾客分类方法,根据数值型和分类型属性值的分布规律,给出了混合数据初始聚类中心的确定方法;建立了统一相似性度量模型,并引入惩罚竞争机制,实现了聚类过程中的基本迭代和自动优化聚类数。以某产品异质顾客分类问题为例验证了所提方法的可行性,继而通过“Heart Disease”标准数据集将所提算法与K-means和K-prototypes两种经典聚类算法进行对比,验证了该方法的有效性。  相似文献   

9.
基于规则分类算法提取的规则集通常存在3个问题:首先,提取的分类规则集中短规则过少,致使高质量的规则不多;其次,规则集中规则数量少,训练数据中几乎所有实例仅被规则覆盖一次;第三,虽然提取大量的规则,但是训练数据中存在一些小类样本的实例不能被任何一条规则覆盖。本文提出一种改进的基于规则的实例多覆盖分类算法(Rule-based classification with instances covered by multiple rules, RCIM),其特点是:(1)为了提高规则的质量,在选择生成规则的第1项时不仅考虑属性值的好坏,而且还考虑了属性值补的好坏;(2)一次产生尽量多,高质量的规则,而且当训练数据的实例至少被两条规则覆盖后才将其删除;(3)当遇上难以判断的测试数据时,对测试数据的各个属性值进行二次学习提取规则。算法RCIM不仅可以有效地提取大量的规则,而且较大程度地提高了规则的质量。通 过在大量数据上实验结果表明,RCIM比许多其他算法取得了更高的分类准确率。  相似文献   

10.
目前多数隐私保护匿名模型不能满足面向敏感属性值的个性化保护需求,也未考虑敏感属性值的分布情况,易受相似性攻击.为此,提出基于敏感度的个性化(α,l)-匿名模型,通过为敏感属性值设置敏感度,并定义等敏感度组的概念,对等价类中各等敏感度组设置不同的出现频率,满足匿名隐私保护的个性化需求.通过限制等价类中同一敏感度的敏感属性值出现的总频率,控制敏感属性值的分布,防止相似性攻击.提出一种基于聚类的个性化(α,l)-匿名算法,实现匿名化处理.实验结果表明,该算法能以与其他l-多样性匿名模型近似的信息损失量和时间代价,提供更好的隐私保护.  相似文献   

11.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

12.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

13.
基于数据分区的最近邻优先聚类算法   总被引:2,自引:0,他引:2  
聚类是数据挖掘领域的一个重要研究方向。最近邻优先吸收(NNAF)算法可以快速进行聚类并且能有效处理噪声点,但当数据密度和聚类间的距离不均匀时聚类质量较差。本文在分析NNAF算法不足的基础上,提出了一种基于数据分区的NNAF 算法-PNNAF 算法,较好地改善了聚类质量。  相似文献   

14.
数据挖掘中聚类分析的技术方法   总被引:31,自引:21,他引:31  
数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术,本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对这些算法性能进行比较,同时还对聚类分析在数据挖掘中的几个应用进行了阐述。  相似文献   

15.
基于聚类的数据挖掘技术在电子商务CRM中的应用研究   总被引:1,自引:0,他引:1  
本文通过对电子商务中客户关系管理聚类数据挖掘技术的研究,提出基于CABOSFV算法的客户聚类算法,用于解决客户关系管理中大量高维稀疏数据组成的客户行为数据集聚类分析和信息管理问题。  相似文献   

16.
Data sources representing attribute information in combination with network information are widely available in today??s applications. To realize the full potential for knowledge extraction, mining techniques like clustering should consider both information types simultaneously. Recent clustering approaches combine subspace clustering with dense subgraph mining to identify groups of objects that are similar in subsets of their attributes as well as densely connected within the network. While those approaches successfully circumvent the problem of full-space clustering, their limited cluster definitions are restricted to clusters of certain shapes. In this work we introduce a density-based cluster definition, which takes into account the attribute similarity in subspaces as well as a local graph density and enables us to detect clusters of arbitrary shape and size. Furthermore, we avoid redundancy in the result by selecting only the most interesting non-redundant clusters. Based on this model, we introduce the clustering algorithm DB-CSC, which uses a fixed point iteration method to efficiently determine the clustering solution. We prove the correctness and complexity of this fixed point iteration analytically. In thorough experiments we demonstrate the strength of DB-CSC in comparison to related approaches.  相似文献   

17.
数据挖掘技术作为一个新兴的技术在许多领域都有成功的应用,本文从数据挖掘的定义、数据挖掘技术的分类以及数据挖掘技术的发展和发掘工具三个方面对数据挖掘技术做了概述,并对数据挖掘技术在过程监控中的应用进行了探讨。  相似文献   

18.
Multi‐document summarization is a process of automatic creation of a compressed version of a given collection of documents that provides useful information to users. In this article we propose a generic multi‐document summarization method based on sentence clustering. We introduce five clustering methods, which optimize various aspects of intra‐cluster similarity, inter‐cluster dissimilarity and their combinations. To solve the clustering problem a modification of discrete particle swarm optimization algorithm has been proposed. The experimental results on open benchmark data sets from DUC2005 and DUC2007 show that our method significantly outperforms the baseline methods for multi‐document summarization.  相似文献   

19.
Data clustering has been proven to be an effective method for discovering structure in medical datasets. The majority of clustering algorithms produce exclusive clusters meaning that each sample can belong to one cluster only. However, most real-world medical datasets have inherently overlapping information, which could be best explained by overlapping clustering methods that allow one sample belong to more than one cluster. One of the simplest and most efficient overlapping clustering methods is known as overlapping k-means (OKM), which is an extension of the traditional k-means algorithm. Being an extension of the k-means algorithm, the OKM method also suffers from sensitivity to the initial cluster centroids. In this paper, we propose a hybrid method that combines k-harmonic means and overlapping k-means algorithms (KHM-OKM) to overcome this limitation. The main idea behind KHM-OKM method is to use the output of KHM method to initialize the cluster centers of OKM method. We have tested the proposed method using FBCubed metric, which has been shown to be the most effective measure to evaluate overlapping clustering algorithms regarding homogeneity, completeness, rag bag, and cluster size-quantity tradeoff. According to results from ten publicly available medical datasets, the KHM-OKM algorithm outperforms the original OKM algorithm and can be used as an efficient method for clustering medical datasets.  相似文献   

20.
基于QPSO的数据聚类*   总被引:1,自引:0,他引:1  
在KMeans聚类、PSO聚类、KMeans和PSO混合聚类(KPSO)的基础上,研究了基于量子行为的微粒群优化算法(QPSO)的数据聚类方法,并提出利用KMeans聚类的结果重新初始化粒子群,结合QPSO的聚类算法,即KQPSO。介绍了如何利用上述算法找到用户指定的聚类个数的聚类中心。聚类过程都是根据数据之间的Euclidean(欧几里得)距离。KMeans算法、PSO算法和QPSO算法的不同在于聚类中心向量的“进化”上。最后使用三个数据集比较了上面提到的五种聚类方法的性能,结果显示基于QPSO  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号