首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
在分析传统聚类算法的基础上,提出一种针对混合属性数据的聚类算法.该算法利用格论中简单元组及超级元组将对象属性转化为格模型建立,以对象间格覆盖数来衡量类间相似度,根据高覆盖数高相似度的原则选择聚类中心进行聚类.在公共数据集上的实验结果表明,该算法在不增加空间复杂度的基础上,有效地提高了混合属性数据聚类的质量.  相似文献   

2.

在分析传统聚类算法的基础上,提出一种针对混合属性数据的聚类算法.该算法利用格论中简单元组及超级元组将对象属性转化为格模型建立,以对象间格覆盖数来衡量类间相似度,根据高覆盖数高相似度的原则选择聚类中心进行聚类.在公共数据集上的实验结果表明"该算法在不增加空间复杂度的基础上,有效地提高了混合属性数据聚类的质量.

  相似文献   

3.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。  相似文献   

4.
在许多应用中,很多数据集都具有数值型和分类型数据的混合特征,k-prototype是针对这类数据聚类的经典方法之一,该方法是一种基于k-means和k-mode的聚类方法。在研究了现有的混合属性数据聚类方法之后,引入了一种新算法用于混合型数据聚类,不仅改进了prototype的选取方法,而且提出了一种新的针对混合型数据的相似度度量方式,基于此又提出了一种不同于k-prototype的数据到prototype的分配方式,采用类似层次聚类中凝聚聚类的思想进行聚类,通过在四个真实的混合型数据集上测试发现:与传统算法相比,算法提高了聚类的精度和稳定性。  相似文献   

5.
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。首先,提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;然后,把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。  相似文献   

6.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

7.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

8.
目前大部分聚类算法只适用于处理属性取值为单值的数值型数据,介绍了一种新的基于粗糙集理论的聚类算法,该算法不仅可用于取值为单值的数值型数据聚类,而且能够用于取值为多值的非数值型数据聚类.该算法利用基于相容关系的属性最小覆盖来求解对象各属性的对象属性信息粒.在此基础上,通过对象属性信息粒和对象粗糙相似度的运算构建各对象的相容粒.最后,把具有相同相容粒的对象视为同一等价类,从而实现对论域的聚类,进而对数据对象进行层次聚类.实验结果表明,该算法是可行的.  相似文献   

9.
《计算机科学与探索》2016,(10):1439-1450
针对现有数据竞争聚类算法在处理密度不均匀数据集时聚类效果不理想的问题,提出了一种密度自适应的数据竞争聚类算法。首先,定义了一种局部密度自适应线段;然后,根据局部密度自适应线段计算出密度自适应相似度,密度自适应相似度不仅反映了数据的整体空间分布信息,还反映了数据点的局部信息,更加符合数据的实际分布;最后,将密度自适应相似度用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法在处理密度不均匀数据集时,具有更高的聚类性能。  相似文献   

10.
针对因使用基于距离的相似性度量,传统聚类内部指标随着数据维数的增加而性能下降的问题,提出了一种基于共享近邻相似度的聚类内部指标.首先,利用共享近邻相似度和k最近邻(kNN)方法,估计数据点的密度,构建融合密度的共享近邻相似度图.然后,根据融合密度的共享近邻相似度图,利用最大流算法,计算出类内相似度和类间分离度,并结合两者计算出聚类内部指标.通过对人工数据集和真实数据集的测试表明,与9个基于距离的传统聚类内部指标相比,该指标能更准确评估数据集的最佳划分和预测数据集的最佳类数.因此,该指标处理复杂类结构和高维数据的能力优于所对比的其他聚类内部指标.  相似文献   

11.
针对传统增量聚类方法对混合属性数据聚类时存在不稳定、随机性大和准确性不够高的缺点,提出一种基于聚类融合的混合属性数据增量聚类算法.该算法以传统增量聚类为基础,采用多种聚类算法的结果进行融合来代替原有单一划分,并重新修正了阈值的取值范围.实验表明,所提出的算法利用原有数据的特征,提高了聚类的稳定性和精确性,具有很好的聚类效果.  相似文献   

12.
差分隐私是一种提供强大隐私保护的模型。在非交互式框架下,数据管理者可发布采用差分隐私保护技术处理的数据集供研究人员进行挖掘分析。但是在数据发布过程中需要加入大量噪声,会破坏数据可用性。因此,提出了一种基于k-prototype聚类的差分隐私混合数据发布算法。首先改进k-prototype聚类算法,按数据类型的不同,对数值型属性和分类型属性分别选用不同的属性差异度计算方法,将混合数据集中更可能相关的记录分组,从而降低差分隐私敏感度;结合聚类中心值,采用差分隐私保护技术对数据记录进行处理保护,针对数值型属性使用Laplace机制,分类型属性使用指数机制;从差分隐私的概念及组合性质两方面对该算法进行隐私分析证明。实验结果表明:该算法能够有效提高数据可用性。  相似文献   

13.
Medical laboratory data are often censored, due to limitations of the measuring technology. For pharmacokinetics measurements and dilution-based assays, for example, there is a lower quantification limit, which depends on the type of assay used. The concentration of HIV particles in the plasma is subject to both lower and upper quantification limit. Linear and nonlinear mixed effects models, which are often used in these types of medical applications, need to be able to deal with such data issues. In this paper we discuss a hybrid Monte Carlo and numerical integration EM algorithm for computing the maximum likelihood estimates for linear and non-linear mixed models with censored data. Our implementation uses an efficient block-sampling scheme, automated monitoring of convergence, and dimension reduction based on the QR decomposition. For clusters with up to two censored observations numerical integration is used instead of Monte Carlo simulation. These improvements lead to a several-fold reduction in computation time. We illustrate the algorithm using data from an HIV/AIDS trial. The Monte Carlo EM is evaluated and compared with existing methods via a simulation study.  相似文献   

14.
当形式背景中的某些属性可以分解为若干子属性时,构建分层概念格模型,讨论原形式背景的概念格和分层形式背景的分层概念格之间的联系.提出由下层概念构造上层概念的上卷构造算法和由上层概念构造下层概念的下钻构造算法.实验表明,采用分层概念格模型可以建模复杂属性数据,分层概念格上卷构造算法和下钻构造算法可以提高构建概念格的效率.  相似文献   

15.
16.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

17.
Over the last decade, lattice Boltzmann methods have proven to be reliable and efficient tools for the numerical simulation of complex flows. The specifics of such methods as turbulence solvers, however, are not yet completely documented. This paper provides results of direct numerical simulations (DNS), by a lattice Boltzmann scheme, of fully developed, incompressible, pressure-driven turbulence between two parallel plates. These are validated against results from simulations using a standard Chebyshev pseudo-spectral method. Detailed comparisons, in terms of classical one-point turbulence statistics at moderate Reynolds number, with both numerical and experimental data show remarkable agreement.

Consequently, the choice of numerical method has, in sufficiently resolved DNS computations, no dominant effect at least on simple statistical quantities such as mean flow and Reynolds stresses. Since only the method-independent statistics can be credible, the choice of numerical method for DNS should be determined mainly through considerations of computational efficiency. The expected practical advantages of the lattice Boltzmann method, for instance against pseudo-spectral methods, are found to be significant even for the simple geometry and the moderate Reynolds number considered here. This permits the conclusion that the lattice Boltzmann approach is a promising DNS tool for incompressible turbulence.  相似文献   


18.
In the paper, we present an efficient two grid method for the miscible displacement problem which discretized by mixed finite element methods for the pressure equation and concentration equation at the same time, and then analyzed the error estimate of the two-gird algorithm. At last, the numerical experiment presented confirmed the theoretical results. Compared with the standard mixed finite element methods, this two-grid scheme based on the mixed methods can keep the same convergence order and cost much less work.  相似文献   

19.
In cluster analysis, one of the most challenging and difficult problems is the determination of the number of clusters in a data set, which is a basic input parameter for most clustering algorithms. To solve this problem, many algorithms have been proposed for either numerical or categorical data sets. However, these algorithms are not very effective for a mixed data set containing both numerical attributes and categorical attributes. To overcome this deficiency, a generalized mechanism is presented in this paper by integrating Rényi entropy and complement entropy together. The mechanism is able to uniformly characterize within-cluster entropy and between-cluster entropy and to identify the worst cluster in a mixed data set. In order to evaluate the clustering results for mixed data, an effective cluster validity index is also defined in this paper. Furthermore, by introducing a new dissimilarity measure into the k-prototypes algorithm, we develop an algorithm to determine the number of clusters in a mixed data set. The performance of the algorithm has been studied on several synthetic and real world data sets. The comparisons with other clustering algorithms show that the proposed algorithm is more effective in detecting the optimal number of clusters and generates better clustering results.  相似文献   

20.
针对基于密度的传统算法不能处理混合属性数据,以及目前的混合属性聚类算法大多数聚类质量不高等问题,提出了基于密度和混合距离度量方法的混合属性聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据3类,分析不同情况的特征选取相应的距离度量方式,通过预设参数能够发现数据密集区域,确定核心点,再利用核心点确定密度相连的对象实现聚类,获得最终的聚类结果.将算法应用于多种数据集上的实验结果表明,该算法具有较高的聚类质量,能够有效处理混合属性数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号