首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
粗糙聚类是不确定聚类算法中一种有效的聚类算法,这里通过分析粗糙k-means算法,指出了其中3个参数wl,wu和ε设置时存在的缺点,提出了一种自适应粗糙k-means聚类算法,该算法能进一步优化粗糙k-means的聚类效果,降低对“噪声”的敏感程度,最后通过实验验证了算法的有效性。  相似文献   

2.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

3.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

4.
基于seeds集和频繁项集挖掘的半监督聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
半监督聚类在无监督学习中通过对少量监督信息的有效利用提高聚类性能。提出一种基于seeds集的半监督聚类算法,它采用Apiori算法对初始seeds集和扩大规模后seeds集的数据进行频繁项集挖掘,使得数据中存在的噪音数据和误标记数据得到净化、修正,以改善seeds集质量,提高聚类性能。该算法使用带权χ2测试这一数学模型作为分类规则度量指标,以对无标记数据进行类标签值预测。实验结果显示,所提出的结合了频繁项集挖掘和带权χ2测试的基于seeds集的半监督聚类算法不仅改善了seeds集质量,也提高了预测结果的精确度,优化了聚类性能。  相似文献   

5.
提出同时考虑真隶属度之差、假隶属度之差、得分值之差和清晰度之和的Vague值相似度量方法。将Vague聚类转化为经典模糊集聚类:先计算Vague对象两两之间的相似度,得到经典模糊相似矩阵,然后运用max-tΔ传递性进行聚类。这种聚类法计算更简单,丢失信息更少,聚类更准确。  相似文献   

6.
经典的模糊c均值(FCM)算法是基于欧氏距离的,它只适用于球型结构的聚类,且在处理高维的数据集时,分错率增加。针对以上两个问题,提出了一种新的聚类算法(FCM-M),它将马氏距离与模糊c均值相结合,并在目标函数中引进一个协方差矩阵的调节因子,利用马氏距离的优点,有效地解决了FCM算法中的缺陷,并利用特征值、特征矢量及伪逆运算来解决马氏距离中遇到的奇异问题。通过数据聚类和图像分割两组实验,证实了该方法的可行性和有效性。  相似文献   

7.
典型的文本聚类算法是一种硬划分,但是实际上由于中文文本的多样性和大量性更适合进行软划分,模糊集理论的提出为这种软划分提供了有力的分析工具。传统的模糊聚类方法大都是通过对隶属度的矩阵逐步迭代得到模糊等价矩阵或模糊划分的方法实现聚类,这个过程需要大量的存储空间。基于模糊粒度计算的文本聚类算法是在文档集合的模糊粒度空间上给定一个归一化的距离函数ddi,dj),对距离小于粒度dλ的文本进行动态聚类。通过实验证明此方法在解决文本聚类问题时具有降低计算复杂度和空间复杂度,适于大量文本的聚类处理。  相似文献   

8.
客户行为的有效聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
对客户的交易数据进行聚类是客户行为分析的一个重要手段。针对客户交易数据维数高的特点,提出了基于EMD和K-means的顾客行为聚类算法。首先利用EMD和自底向上分段算法实现交易数据序列维度的约简,再利用K-means算法完成降维后序列的聚类,最后利用每个类别中购买率较高的商品作为该类的描述,为商家提供促销依据。该聚类算法一方面可以有效实现客户行为的聚类,另一方面,由于算法对交易数据序列进行了降维处理,节约了一定的存储空间。  相似文献   

9.
模糊聚类是模式识别、机器学习和图像处理等领域的重要研究内容。模糊C-均值聚类算法是最常用的模糊聚类实现算法,该算法需要预先给定聚类数才能对数据集进行聚类。提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标和传统有效性指标在6个人工数据集和3个真实数据集进行实验验证。实验结果表明,所提出的指标和方法能够有效地对聚类结果进行评估,适合确定样本的最佳聚类数。  相似文献   

10.
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。  相似文献   

11.
模糊聚类有效性指标主要是为了解决模糊C-均值算法需要事先给定最佳聚类数的缺陷,但是现有的大多数模糊聚类有效性指标一般过于依赖聚类质心,使得这类指标在含有紧邻类与大小、密度差异大的数据集上无法准确地判断最佳聚类数。为了缓解这个问题,提出了新聚类有效性指标WS。WS指标在一定程度上考虑了最大最小隶属度法则与模糊集偏差,从而全面展示了数据集的整体信息。在人工与真实数据集上,评估WS指标与现有一些指标的有效性,新指标展现出了较高的准确性。在不同的模糊度下,WS有效性指标表现出了较好的鲁棒性。  相似文献   

12.
基于减法聚类和快速紧密性函数的SF-FCM   总被引:1,自引:0,他引:1  
李洪波 《控制与决策》2011,26(7):1074-1078
首先结合减法聚类和模糊C-均值聚类各自的优点,运用减法聚类自适应地确定模糊C-均值聚类(FCM)的初始聚类数;然后,提出了改进的紧密性函数,以此改进用于确定FCM聚类结构的有效性函数.改进后的紧密性函数将对聚类结果贡献不大的数据予以剔除,使得算法适应能力更强,执行速度更快.实验结果表明,该快速紧密性函数是有效的,而且计算速度更快.  相似文献   

13.
针对模糊聚类需要预知最佳聚类个数的问题,提出了一种新的基于隶属比的聚类有效性指标Vnew,首先根据经典有效性指标的设计思路,充分考虑数据集合的隶属度矩阵特征和几何空间分布,通过重新定义类内距和类间距的方式,推导出基本的有效性指标;其次,定义隶属比的概念,放大基本有效性指标的计算值;最后,为了避免隶属比对有效性指标造成过分影响而失去意义,引入分类个数进行抑制. 理论分析和仿真实验表明,通过对相同数据集进行分析处理,与经典的XB指标相比Vxb,新指标Vnew具有更高的准确率和可靠性,在类间有重叠数据的情况下也能够做出正确的划分,具有一定的推广价值.  相似文献   

14.
快速模糊C均值聚类彩色图像分割方法   总被引:33,自引:3,他引:33       下载免费PDF全文
模糊C均值(FCM)聚类用于彩色图像分割具有简单直观、易于实现的特点,但存在聚类性能受中心点初始化影响且计算量大等问题,为此,提出了一种快速模糊聚类方法(FFCM)。这种方法利用分层减法聚类把图像数据分成一定数量的色彩相近的子集,一方面,子集中心用于初始化聚类中心点;另一方面,利用子集中心点和分布密度进行模糊聚类,由于聚类样本数量显著减少以及分层减法聚类计算量小,故可以大幅提高模糊C均值算法的计算速度,进而可以利用聚类有效性分析指标快速确定聚类数目。实验表明,这种方法不需事先确定聚类数目并且在优化聚类性能不变的前提下,可以使模糊聚类的速度得到明显提高,实现彩色图像的快速分割。  相似文献   

15.
神经模糊系统中模糊规则的优选   总被引:5,自引:0,他引:5  
贾立  俞金寿 《控制与决策》2002,17(3):306-309
提出一种基于两级聚类算法的自组织神经模糊系统,该系统采用两级聚类算法(改进的最近邻域聚类算法和Gustafson-Kessel模糊聚类算法)对输入/输出数据进行模糊聚类,并由模糊聚类的划分熵确定最优划分,建立模糊模型,模型精度可由梯度下降法进一步提高。仿真结果表明,这种神经模糊系统具有结构简单、规则数少、学习速度快以及建模精度高等特点。  相似文献   

16.
基于模糊划分测度的聚类有效性指标   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类有效性指标用于评价聚类结果的有效性。根据聚类的基本特性,提出了一个新的用于发现最优模糊划分的聚类有效性指标,该有效性指标采用模糊划分测度和信息熵两个重要因子来评价模糊聚类的有效性。其中,模糊划分测度用于评价聚类的类内紧致性与类间分离性,而信息熵则反映了模糊聚类划分结果的不确定性程度。实验结果表明,该聚类有效性指标能对模糊聚类结果的有效性进行正确的评价,特别是对于空间数据的聚类有效性评价,同其他有效性指标相比,它不仅能得到最优的模糊划分,而且对权重系数也是不敏感的。  相似文献   

17.
孙秀娟  刘希玉 《计算机应用》2008,28(12):3244-3247
在K-means算法中,聚类数k是影响聚类质量的关键因素之一。目前,已经提出了许多确定最佳k值的聚类有效性方法,但这些方法都不能很好地处理两种数据集:类(簇)密度不同的数据集和类间距比较小的数据集(含有合并簇的数据集)。为此,提出了一种新的聚类有效性函数,该函数定义为数据特征轴总长度的平方与最小类间距的比值,最佳聚类数为这个比值达到最小时对应的k值。同时,为减小K-means算法对噪声和孤立点数据的敏感性,使用了基于加权的改进K-平均的方法计算类中心。实验证明,与其他算法相比,基于新聚类有效性函数的K-wmeans算法不仅降低了噪声和孤立点数据对聚类结果的影响,而且能有效地处理上面提到的两种数据集,明显提高了数据聚类质量。  相似文献   

18.
基于密度的聚类算法(DBSCAN)是最有效的轨迹数据挖掘方法之一,但基于密度的聚类算法往往受到输入参数选择的限制。在轨迹数据挖掘中,聚类结果不仅受到类内距离和类间距离的影响,还受到聚类中坐标点个数的影响。因此,提出了一种新的基于内外占空比的集群有效性指标来平衡这三个因素,该指标可以自动选择密度聚类的输入参数,并在不同的数据集上形成有效的聚类,优化后的聚类方法可应用于出行者行为轨迹的深度分析和挖掘。实验结果证明,与传统的有效性指标相比,提出的基于占空比的评价指标能够优化输入参数,获得较好的出行者位置信息聚类结果。  相似文献   

19.
一个改进的模糊聚类有效性指标   总被引:1,自引:0,他引:1       下载免费PDF全文
聚类有效性指标既可用来评价聚类结果的有效性,也可以用来确定最佳聚类数。根据模糊聚类的基本特性,提出了一种新的模糊聚类有效性指标。该指标结合了数据集的分布特征和数据隶属度两个重要因素来评价聚类结果,提高了判别的准确性。实验证明,该指标能对模糊聚类结果进行正确的评价,并自动获得最佳聚类数,特别是对类间有交叠的情况能够做出准确判定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号