首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 223 毫秒
1.
基于支持向量数据描述和改进的可能性c-均值聚类算法,提出了一种模糊的多类分类学习机.首先通过一个改进的PCM算法来计算每个样本对于每类的权值矩阵,该权值也反映了该样本对某类的重要程度;然后将该权值矩阵应用到支持向量数据描述方法中,并对样本进行训练;最后给出了一个针对多类分类的分类规则(函数),并从理论上证明该分类规则满足贝叶斯优化决策理论.通过对比实验分析,本文提出的算法在分类精度和训练时间上都有较大的改善.  相似文献   

2.
杨旭华  朱钦鹏  童长飞 《计算机科学》2018,45(1):292-296, 306
聚类分析是一种重要的数据挖掘工具,可以衡量不同数据之间的相似性,并把它们分到不同的类别中,在模式识别、经济学和生物学等领域有着广泛的应用。 文中提出了一种新的聚类算法。首先,把待分类的数据集转换成一个加权的完全图,每个数据点为一个节点,两个数据点之间的距离为相应两个节点之间边的权值。然后,用Laplacian中心性来计算和评价该网络每个节点的局部重要性,聚类中心为局部的密度中心,它具有比周围的邻居节点更高的Laplacian中心性,并且与具有更高Laplacian中心性的节点之间的距离也较大。新算法是一种真正的无参数聚类方法,不需要任何先验参数便可以自动地对数据集进行分类。在6种数据集中将其与9种知名聚类算法做了对比,结果显示该算法具有良好的聚类效果。  相似文献   

3.
现有的大多数过采样算法在采样过程中只考虑少数类样本的分布而忽略多数类样本的分布,且数据集除了存在类间不平衡问题之外,还存在类内不平衡问题。针对这些问题,提出一种基于密度峰值聚类和径向基函数的过采样方法。该方法首先利用改进的密度峰值聚类算法自适应地为少数类聚类,获得多个子簇;利用聚类过程计算所得的局部密度为各子簇分配权重,并根据权重确定各子簇的过采样量;用径向基函数计算少数类样本的相互类势,以相互类势为依据对少数类进行过采样。将算法与不同分类器结合进行实验,用不同指标评价分类效果,实验表明,该算法的分类效果较优。  相似文献   

4.
聚类分析是数据挖掘中一个重要研究内容。传统的聚类算法可划分为硬聚类和模糊聚类两大类,提出一种基于对象集上的相容关系的聚类算法,该算法通过极大相容簇来对数据对象集进行分类,使得同一对象可以属于不同的簇,而每个簇又有自己独有的成员对象,从而得到既不同于硬聚类也不同于模糊聚类的聚类效果。实验进一步表明了该算法的聚类的合理性。  相似文献   

5.
改进的基于核函数的模糊聚类算法   总被引:1,自引:0,他引:1  
孔攀  邓辉文  江欢  黄艳艳 《计算机应用》2008,28(9):2338-2340
针对传统模糊核聚类算法没有考虑各维特征对聚类的不同贡献程度,以及易陷入局部最优等缺点, 提出一种改进的模糊核聚类算法。该算法构造了一个简单有效的适应度函数,结合遗传算法全局搜索的优点,避免算法陷入局部最优。还为各维特征引入一个权系数,并利用ReliefF算法为特征加权。该算法比传统模糊核聚类算法有较大改进,实验结果表明了其有效性。  相似文献   

6.
基于流数据的模糊聚类算法   总被引:1,自引:0,他引:1  
对流数据进行有效聚类是一个吸引研究者很大注意力的问题.传统的聚类挖掘算法只能适用于纯数值属性数据或纯分类属性数据,很难适用于混合属性的数据.针对混合属性数据的特点,在借鉴AcluStream算法的基础上,提出了一种模糊聚类算法.算法对流数据的相异度分类度量,定量属性使用欧氏距离和曼哈坦距离度量,定性属性可以采用hamming距离度量.模糊聚类算法的主要步骤有两步:第一步,运用最小距离聚类算法进行聚类,构成一个初始类.第二步,对基于最小距离聚类算法进行聚类所得到的初始簇,运用密度聚类方法进行聚合或分割,使得聚类集合稳定.实践证明:该算法是快速地有效的.  相似文献   

7.
针对模糊C-均值算法聚类分析时的缺陷,采用能够较好地处理噪音和孤立点的可能性聚类算法,并将核学习方法的思想应用于可能性聚类算法中,提出一种基于核的可能性聚类算法。该方法利用Mercer核将观察空间的待分类样本点经过一个非线性映射后,映射到一个高维的核空间,突出不同类别样本之间的特征差异,使得原来线性不可分的样本点在核空间中变得更加线性可分,从而更好地聚类。经仿真实验表明,基于核的可能性聚类算法比模糊C-均值以及可能性聚类算法具有更好的聚类效果,且算法能够很快地收敛。  相似文献   

8.
共指消解是文本信息处理中的一个重要问题.提出了一种有监督的关联聚类算法以实现对中文实体提及的共指消解.首先将共指消解过程看成图的关联聚类问题,从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指决策;然后给出了关联聚类的推导算法;最后设计了一种基于梯度下降的特征参数学习算法,使得训练出的特征参数能够较好拟合关联聚类的目标.在ACE中文语料上的实验结果显示,该算法优于传统的"分类一聚类"共指消解学习算法.  相似文献   

9.
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高.  相似文献   

10.
王朔琛  汪西莉 《计算机应用》2015,35(10):2974-2979
半监督复合核支持向量机在构造聚类核时,普遍存在复杂度高、不适于大规模图像分类的问题;且K均值(K-means)图像聚类的参数难以估计。针对上述问题,提出基于均值漂移(Mean-Shift)参数自适应的半监督复合核支持向量机图像分类方法。结合Mean-Shift对像素点进行聚类分析以避免K-means图像聚类的局限性;利用图像的结构特征自适应算法参数以避免算法的波动性;由Mean-Shift结果构造Mean Map聚类核以增强同一聚类中的样本属于同一类别的可能性,使复合核更好地指导支持向量机对图像分类。实验验证了改进的聚类算法和参数取值方法可以更好地获取图像的聚类信息,使算法对普通图像和加噪图像的分类正确率较对比的半监督算法一般情况下提高1~7个百分点,且对于较大规模图像也有一定适用性,能够更高效、更稳定地进行图像分类。  相似文献   

11.
Clustering is the process of organizing objects into groups whose members are similar in some way. Most of the clustering methods involve numeric data only. However, this representation may not be adequate to model complex information which may be: histogram, distributions, intervals. To deal with these types of data, Symbolic Data Analysis (SDA) was developed. In multivariate data analysis, it is common some variables be more or less relevant than others and less relevant variables can mask the cluster structure. This work proposes a clustering method based on fuzzy approach that produces weighted multivariate memberships for interval-valued data. These memberships can change at each iteration of the algorithm and they are different from one variable to another and from one cluster to another. Furthermore, there is a different relevance weight associated to each variable that may also be different from one cluster to another. The advantage of this method is that it is robust to ambiguous cluster membership assignment since weights represent how important the different variables are to the clusters. Experiments are performed with synthetic data sets to compare the performance of the proposed method against other methods already established by the clustering literature. Also, an application with interval-valued scientific production data is presented in this work. Clustering quality results have shown that the proposed method offers higher accuracy when variables have different variabilities.  相似文献   

12.
In this paper, we investigate methods of estimating the mixing proportion in the case when one of the probability densities is not specified analytically in a mixture model. The methodology we propose is motivated by a sequential clustering algorithm. After a sequential clustering algorithm finds the center of a cluster, the next step is to identify observations belonging to that cluster. If we assume that the center of the cluster is known and that the distribution of observations not belonging to the cluster is unknown, the problem of identifying observations in the cluster is similar to the problem of estimating the mixing proportion in a special two-component mixture model. The mixing proportion can be considered as the proportion of observations belonging to the cluster. We propose two estimators for parameters in the model and compare the performance of these two estimators in several different cases.  相似文献   

13.
The goal of cluster analysis is to assign observations into clusters so that observations in the same cluster are similar in some sense. Many clustering methods have been developed in the statistical literature, but these methods are inappropriate for clustering family data, which possess intrinsic familial structure. To incorporate the familial structure, we propose a form of penalized cluster analysis with a tuning parameter controlling the tradeoff between the observation dissimilarity and the familial structure. The tuning parameter is selected based on the concept of clustering stability. The effectiveness of the method is illustrated via simulations and an application to a family study of asthma.  相似文献   

14.
一种基于自动阈值发现的文本聚类方法   总被引:12,自引:0,他引:12  
文本聚类随着网上文本的激增以及实际应用中的需求,引起了人们越来越多的重视.通过分析文本的特征以及常用的文本聚类方法,提出了一种对文本进行细致划分获取细化簇、并在细化簇基础上进行聚类的文本聚类方法.在聚类过程中,采用曲线的多项式拟合技术提出了一种自动发现阈值的方法,并把该方法应用于细化簇的寻找步骤中.与凝聚的层次聚类方法的实验比较结果表明,使用自动阈值发现的方法在时间消耗、聚类效果、以及对孤立点的容忍性方面都具有更优的性能.  相似文献   

15.
针对基因表达数据中存在的噪声对聚类分析结果准确度的影响问题,提出了一种基于小波包分解的基因表达数据模糊聚类分析方案,介绍了理论根据和算法,给出了Matlab仿真结果,并与其他方法聚类的结果进行了比较。结果表明提出的方法能够减少传统聚类方法受到噪声影响的程度,能够挖掘出基因表达数据在时间上的行为特征,对与细胞周期调控有关的基因表达数据的聚类结果划分更为准确和细致。  相似文献   

16.
Identifying the optimal cluster number and generating reliable clustering results are necessary but challenging tasks in cluster analysis. The effectiveness of clustering analysis relies not only on the assumption of cluster number but also on the clustering algorithm employed. This paper proposes a new clustering analysis method that identifies the desired cluster number and produces, at the same time, reliable clustering solutions. It first obtains many clustering results from a specific algorithm, such as Fuzzy C-Means (FCM), and then integrates these different results as a judgement matrix. An iterative graph-partitioning process is implemented to identify the desired cluster number and the final result. The proposed method is a robust approach as it is demonstrated its effectiveness in clustering 2D data sets and multi-dimensional real-world data sets of different shapes. The method is compared with cluster validity analysis and other methods such as spectral clustering and cluster ensemble methods. The method is also shown efficient in mesh segmentation applications. The proposed method is also adaptive because it not only works with the FCM algorithm but also other clustering methods like the k-means algorithm.  相似文献   

17.
A Novel Density-Based Clustering Framework by Using Level Set Method   总被引:1,自引:0,他引:1  
In this paper, a new density-based clustering framework is proposed by adopting the assumption that the cluster centers in data space can be regarded as target objects in image space. First, the level set evolution is adopted to find an approximation of cluster centers by using a new initial boundary formation scheme. Accordingly, three types of initial boundaries are defined so that each of them can evolve to approach the cluster centers in different ways. To avoid the long iteration time of level set evolution in data space, an efficient termination criterion is presented to stop the evolution process in the circumstance that no more cluster centers can be found. Then, a new effective density representation called level set density (LSD) is constructed from the evolution results. Finally, the valley seeking clustering is used to group data points into corresponding clusters based on the LSD. The experiments on some synthetic and real data sets have demonstrated the efficiency and effectiveness of the proposed clustering framework. The comparisons with DBSCAN method, OPTICS method, and valley seeking clustering method further show that the proposed framework can successfully avoid the overfitting phenomenon and solve the confusion problem of cluster boundary points and outliers.  相似文献   

18.
基于遗传算法的模糊聚类分析   总被引:9,自引:0,他引:9  
模糊C-均值聚类(FCM)应用广泛,但是它容易陷入局部最优,且对初始值很敏感。该文提出了一种基于遗传算法的模糊聚类方法,首先用遗传算法对模糊聚类中聚类中心的个数和聚类中心的选取进行指导,然后利用FCM进行聚类。实验结果表明:该方法可以在一定程度上避免FCM算法对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果很好。  相似文献   

19.
针对传统谱聚类算法中亲合矩阵构造不准确和聚类结果不稳定的问题,提出一种基于邻里关系传播与模式合并的谱聚类算法。根据邻里关系传播原则更新子集内样本的相似度,设计局部最大相似值更新方法更新子集间样本的相似度,使用模式合并技术对子集个数较多的集合加以合并得出粗类,再对粗类间样本相似度进行二次更新,构造出亲合矩阵并将其用于谱聚类运算。实验结果表明,二次更新后,同类中样本的相似度被相对性放大,而不同类中样本的相似度则相对性缩小。与近邻传播的谱聚类算法相比,使用该算法能够得到更准确、稳定的聚类结果。  相似文献   

20.
传统的基于真实距离的聚类分析方法不利于地震不同断层破裂传播和愈合速度的精确计算。为提高地震预测精度,提出并建立了基于软距离计算的聚类方法。给出了基于软距离聚类过程、软距离计算方法以及具体的基于软距离计算的聚类算法。以现实的强震样本点作为聚类数据源,采用该聚类方法以及其它传统聚类方法对该样本数据进行聚类分析。分析结果表明,采用该聚类方法获得的聚类中心点更接近地壳应力场演变的客观真实性,该聚类分析方法为地震的断层带下次发生强震的精确计算提供了很好的计算依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号