首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
聚类分析是应用最为广泛的数学方法之一,但又被认为是数学上不严格的一类方法。主要原因在于聚类过程及其结果没有统计学标准。本文建立了具有随机化统计检验的聚类分析算法,用于对若干个样品进行有显著性标记的聚类分析。该算法由三部分组成:距离测度计算、随机化检验和系统聚类。在该算法中,有14种距离测度、三种系统聚类方方法及指标加权与否可供选择。样品之间的距离定义为:1-随机化检验的P检验值;两类间的距离若满足P检验标准则合并为同一类是统计上显著的、可接受的,否则就是不显著的、不可接受的。算法的特点是:用随机化方法进行差异显著性检验,使得对多种距离测度可进行严格的统计检验,随机化检验不需统计前提和假设,适用于各种统计问问题;用于差异显著性检验的随机化方法需要随机化数值为正整数值,适用范围过窄,用数值同步移位和平移方法可使之适用于实数域。算法用Java语言网络化实现,包含六个类和一个HTFML文件。可通过网络在多种Java兼容的浏览器上实现算法共享。根据水稻田无脊椎动物多样性的调查数据,本文对该算法进行了对比分析,并讨论了选择距离测度的一些原则和进一步研究的途径等问题。  相似文献   

2.
聚类是假设数据在具有某种群聚结构的前提下根据观察到的无标记的样本发现数据的最优划分。针对已有的聚类算法存在的缺点,假设数据样本的结果簇是密集的,且簇与簇之间区别明显,基于该假设提出一种基于傅里叶变换和连通图的聚类分析方法 FGClus。首先针对每个样本点计算k阶距离矩阵并序列化作为离散傅里叶变换的输入信号;然后抽取频域内幅值最小的复数项并构造输入序列进行傅里叶逆变换,得到在时域空间中的最佳阈值;最后利用该阈值结合连通图指导最终的聚类过程。实验表明,FGClus算法克服了K-means算法聚类前需确定聚类个数、聚类结果对初始代表点的选取敏感、只能聚类球状数据等缺点,取得了良好的聚类效果。  相似文献   

3.
根据聚类假设,提出一种新的基于图的半监督学习算法,称为密度敏感的半监督聚类。该算法引入一种密度敏感的距离测度,它能较好地反映聚类假设,并且充分挖掘了数据集中复杂的内在结构信息,同时与基于图的半监督学习方法相结合,使得算法在聚类性能上有了显著的提高。经过实验仿真进一步表明,该算法在特定图像应用上具有优越性。  相似文献   

4.
陈刚  陈晓云 《控制与决策》2014,29(2):236-240
提出一种基于投票的聚类集成方法. 通过分析聚类结构与聚类准确率的关系, 将内聚度最高的聚类成员作为重新标记的基准以实现簇标记的统一; 同时, 根据数据点在不同聚类成员中与所划分簇中心的距离确定权值, 最终实现加权投票. 实验结果表明, 该算法在准确率和稳定性上均有较大提高.  相似文献   

5.
针对聚类算法中特征数据对聚类中心贡献的差异性及算法对初始聚类中心的敏感性等问题,提出一种基于知识量加权的直觉模糊均值聚类方法。首先将原始数据集直觉模糊化并改进最新的直觉模糊知识测度计算知识量,据此实现数据集特征加权,再利用核空间密度与核距离初始化聚类中心,以提高高维特征数据集的计算精度与聚类效率,最后基于类间样本距离与最小知识量原理建立聚类优化模型,得到最优迭代算法。基于UCI人工数据集的实验结果表明,所提方法较大程度地提高了聚类的准确性与迭代效率,分类正确率及执行效率分别平均提高了10.63%和31.75%,且具有良好的普适性和稳定性。该方法首次将知识测度新理论引入模糊聚类并取得优良效果,为该理论在其他相关领域的潜在应用开创了新例。  相似文献   

6.
采取了3种必要的措施提高了聚类质量:考虑到各维数据特征属性对聚类效果影响不同,采用了基于统计方法的维度加权的方法进行特征选择;对于和声搜索算法的调音概率进行了改进,将改进的和声搜索算法和模糊聚类相结合用于快速寻找最优的聚类中心;循环测试各种中心数情况下的聚类质量以获得最佳的类中心数。该算法被应用于并行计算性能分析中,用于识别并行程序运行时各处理器运行性能瓶颈的类别。实验结果表明该算法较其他算法更优,这样的性能分析方法可以提高并行程序的运行效率。  相似文献   

7.
一种半监督K均值多关系数据聚类算法   总被引:1,自引:0,他引:1  
高滢  刘大有  齐红  刘赫 《软件学报》2008,19(11):2814-2821
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

8.
对分别采用欧氏距离和网络距离作为相似性测度的聚类方法进行分析,并从空间网络中对象间着手,提出一种具有方向特点的网络对象聚类算法.算法利用空间网络的邻接关系,将两种距离结合起来作为聚类的相似性测度以提高聚类的精度.算法分析和实验证明,该算法的聚类效果优于单一度量的聚类方法.  相似文献   

9.
传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要.但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响.为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK.首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点.  相似文献   

10.
一种半监督K均值多关系数据聚类算法   总被引:4,自引:1,他引:3  
提出了一种半监督K均值多关系数据聚类算法.该算法在K均值聚类算法的基础上扩展了其初始类簇的选择方法和对象相似性度量方法,以用于多关系数据的半监督学习.为了获取高性能,该算法在聚类过程中充分利用了标记数据、对象属性及各种关系信息.多关系数据库Movie上的实验结果验证了该算法的有效性.  相似文献   

11.
生境均质性分析及随机化检验的算法与网络软件   总被引:6,自引:1,他引:6  
均质和连续的生境多样化程度较低,自然屏障少,有利于有害生物的扩散和侵袭,生物物种形成较慢,种类也相对较少。因而,生境是否均质和连续,对有害生物的扩散,生物物种的形成,以及生物多样性保护具有决定性作用。本研究建立了用于确定生境是否均质和连续的一种算法。该算法由三部分组成:距离测度计算,随机化检验,以及生境有序分区。研制了该算法的网络软件,可在多种兼容Java的网络浏览器,如Internet Explorer, HotJava, Netscape Navigator上调用和运行。不仅可独立使用,也可以作为网络软件包及网络数据库的嵌入程度。对该算法进行了实例分析,并讨论了选择距离测度的一些原则。  相似文献   

12.
为了改善Java源程序的质量,使之尽可能地符合“高内聚、低耦合”的设计要求,提出了扩展的Jaccard系数,并将其作为实体间相似性的度量公式,采用层次聚类算法将Java类图划分为若干个候选包。在基于交互及度量重构策略的引导下,对Java程序结构进行调整。通过实验表明,经过调整以后的Java源程序,在结构上更符合“高内聚、低耦合”的特征。  相似文献   

13.
Hierarchical clustering is a stepwise clustering method usually based on proximity measures between objects or sets of objects from a given data set. The most common proximity measures are distance measures. The derived proximity matrices can be used to build graphs, which provide the basic structure for some clustering methods. We present here a new proximity matrix based on an entropic measure and also a clustering algorithm (LEGCIust) that builds layers of subgraphs based on this matrix and uses them and a hierarchical agglomerative clustering technique to form the clusters. Our approach capitalizes on both a graph structure and a hierarchical construction. Moreover, by using entropy as a proximity measure, we are able, with no assumption about the cluster shapes, to capture the local structure of the data, forcing the clustering method to reflect this structure. We present several experiments on artificial and real data sets that provide evidence on the superior performance of this new algorithm when compared with competing ones.  相似文献   

14.
Hierarchical clustering is a stepwise clustering method usually based on proximity measures between objects or sets of objects from a given data set. The most common proximity measures are distance measures. The derived proximity matrices can be used to build graphs, which provide the basic structure for some clustering methods. We present here a new proximity matrix based on an entropic measure and also a clustering algorithm (LEGClust) that builds layers of subgraphs based on this matrix, and uses them and a hierarchical agglomerative clustering technique to form the clusters. Our approach capitalizes on both a graph structure and a hierarchical construction. Moreover, by using entropy as a proximity measure we are able, with no assumption about the cluster shapes, to capture the local structure of the data, forcing the clustering method to reflect this structure. We present several experiments on artificial and real data sets that provide evidence on the superior performance of this new algorithm when compared with competing ones.  相似文献   

15.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

16.
Dynamic Time Warping (DTW) is a popular and efficient distance measure used in classification and clustering algorithms applied to time series data. By computing the DTW distance not on raw data but on the time series of the (first, discrete) derivative of the data, we obtain the so-called Derivative Dynamic Time Warping (DDTW) distance measure. DDTW, used alone, is usually inefficient, but there exist datasets on which DDTW gives good results, sometimes much better than DTW. To improve the performance of the two distance measures, we can combine them into a new single (parametric) distance function. The literature contains examples of the combining of DTW and DDTW in algorithms for supervised classification of time series data. In this paper, we demonstrate that combination of DTW and DDTW can also be applied in a method of time series clustering (unsupervised classification). In particular, we focus on a hierarchical clustering (with average linkage) of univariate (one-dimensional) time series data. We construct a new parametric distance function, combining DTW and DDTW, where a single real number parameter controls the contribution of each of the two measures to the total value of the combined distances. The parameter is tuned in the initial phase of the clustering algorithm. Using this technique in clustering methods requires a different approach (to address certain specific problems) than for supervised methods. In the clustering process we use three internal cluster validation measures (measures which do not use labels) and three external cluster validation measures (measures which do use clustering data labels). Internal measures are used to select an optimal value of the parameter of the algorithm, where external measures give information about the overall performance of the new method and enable comparison with other distance functions. Computational experiments are performed on a large real-world data base (UCR Time Series Classification Archive: 84 datasets) from a very broad range of fields, including medicine, finance, multimedia and engineering. The experimental results demonstrate the effectiveness of the proposed approach for hierarchical clustering of time series data. The method with the new parametric distance function outperforms DTW (and DDTW) on the data base used. The results are confirmed by graphical and statistical comparison.  相似文献   

17.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

18.
提出一种新的聚类算法AIK-Means,利用CUDA技术加速算法执行效率,并优化内存方法,可在有限时间内进行多次聚类;将Chameleon层次聚类算法用于解决K-Means算法的初始聚类中心敏感问题;在多次聚类结果中用FP-Tree进行关联分析,提高聚类有效性。将算法应用到某集团心理学MMPI数据测试,实验结果表明AIK-Means算法在执行效率和聚类有效性上具有良好的效果。  相似文献   

19.
基于K-Means 的无线传感网分簇算法研究*   总被引:2,自引:0,他引:2  
针对传统分层路由算法存在的分簇不均匀、簇头选举不合理以及数据传输形式单一等问题,提出基于K-Means 的无线传感网改进分簇算法LEACH-KPP。首先在成簇阶段采用K-Means 算法实现均匀分簇,随后在簇头选举阶段使用改进簇头选举函数选取簇头,最后在融合数据传输阶段根据簇头与基站,簇头与簇头之间距离动态选择单跳与多跳的混合传输方式传输数据。OMNet 仿真结果与时间复杂度推导表明,LEACH-KPP延长了网络的生存周期,在节点剩余能量与后期存活数目上都优于传统分层路由算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号