首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
传统聚类方法将对象严格地划分到某一类,但很多时候边界对象不能被严格地划分.粗糙集用上近似集和下近似集表示一个类,对这种边界不确定的处理非常有效,典型算法有基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法.本文针对RFA(R0ughFuzzyApproach)算法存在的不足,提出了一种新的基于粗糙集的leader聚类算法(NRL,Novel Rough-based Leader).其基本思想是首先数据项由于与其最近类中心的距离不同,分别被划分到leader集或者supporting leader集,然后对leader集和supporting leader集进行标号,得到聚类结果.实验结果表明NRL算法非常有效.  相似文献   

2.
一种基于粗糙集的K-Means聚类算法   总被引:5,自引:0,他引:5  
冯征 《计算机工程与应用》2006,42(20):141-142,146
在传统的硬聚类过程中,得到的簇中数据对象是确定的,然而在现实世界,边界数据是不能被准确划分到任何一个簇的。粗糙集是处理这种边界不确定性的工具,基于此提出了一种基于粗糙集的K-Means聚类算法,这种算法生成的簇包括上近似集和下近似集,可以处理边界对象。试验证明,这种算法是有效的。  相似文献   

3.
改进的基于遗传算法的粗糙聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统的聚类算法都是使用硬计算来对数据对象进行划分,然而现实中不同类之间对象通常没有明确的界限。粗糙集理论提供了一种处理边界对象不确定的方法。因此将粗糙理论与k-均值方法相结合。同时,传统的k-均值聚类方法必须事先给定聚类数k,但实际情况下k很难确定;另外虽然传统k-均值算法局部搜索能力强,但容易陷入局部最优。遗传算法能得到全局最优解,但收敛过快。鉴于此,提出了一种改进的基于遗传算法的的粗糙聚类方法。该算法能动态地生成k-均值聚类数,采用最大最小原则生成初始聚类中心,同时结合粗糙集理论的上近似和下近似处理边界对象。最后,用UCI的Iris数据集分别对算法进行实际验证。实验结果表明,该算法具有较高的正确率,综合性能更加稳定。  相似文献   

4.
针对基于密度的传统算法不能处理混合属性数据,以及目前的混合属性聚类算法大多数聚类质量不高等问题,提出了基于密度和混合距离度量方法的混合属性聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据3类,分析不同情况的特征选取相应的距离度量方式,通过预设参数能够发现数据密集区域,确定核心点,再利用核心点确定密度相连的对象实现聚类,获得最终的聚类结果.将算法应用于多种数据集上的实验结果表明,该算法具有较高的聚类质量,能够有效处理混合属性数据.  相似文献   

5.
粗糙的方向性模糊聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
根据高维数据具有方向性的特征,结合概率模糊聚类算法与粗糙集理论提出了一种粗糙的方向性模糊聚类算法。该算法在概率模糊聚类算法中引入了数据方向相似性函数,能对不确定数据进行处理。在算法中利用粗糙集中的下近似集与边界集来确定目标对象函数,属于下近似集的数据在聚类时是确定的,属于边界的数据具有模糊性。实验结果表明,该算法能有效地对高维的方向性数据进行聚类。  相似文献   

6.
陈晋音  何辉豪 《自动化学报》2015,41(10):1798-1813
面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类 质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对 这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据 聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数 值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取 相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础 上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数 据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异 点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采 用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到 任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类 中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高 密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文 提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行 算法性能比较,验证本文提出算法具有较高的聚类质量.  相似文献   

7.
基于数据场的粗糙聚类算法   总被引:2,自引:1,他引:1  
聚类分析是数据挖掘的研究热点.传统的聚类算法都是把一个对象精确地划分到一个聚类簇中,类别之间的界限是非常精确的.随着Web挖掘技术的发展,精确地划分每个对象的聚类算法面临着巨大的挑战.根据数据场理论和经典粗糙集理论所具有处理不精确与不确定性数据的特性,提出一种新的基于数据场的粗糙聚类算法,该粗糙聚类算法采用势值作为对象的划分依据,避免传统粗糙聚类算法一贯采用基于欧氏距离的划分方法.算法首先通过对数据对象进行粗分然后再不断迭代细分,直至形成稳定的聚类簇.实验分析过程中,把提出的算法与粗糙K-means算法和粗糙K-medoids算法进行了比较,结果表明该算法在交叉数据集上具有较好的聚类效果,而且收敛速度较快.  相似文献   

8.
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度.  相似文献   

9.
针对传统的聚类算法只能处理单属性的数据,不能很好地处理混合属性数据的聚类问题,以及目前大多数混合属性数据聚类算法对初始化敏感、不能处理任意形状的数据的问题,提出一种基于信息熵的混合属性数据谱聚类算法,用于处理混合类型数据。首先,提出了一种新的相似性度量方式,利用谱聚类算法中的数值型数据构成的高斯核函数矩阵与新的基于信息熵的分类型数据构成的影响因子矩阵相结合代替了传统的相似度矩阵,新的相似度矩阵避免了数值属性与分类属性数据之间的转换和参数调整;然后,把新的相似度矩阵运用到谱聚类算法中,以便于处理任意形状的数据,最终得出聚类结果。通过在UCI的数据集上的实验表明,该算法能有效地处理混合属性数据的聚类问题,且具有较高的稳定性以及良好的鲁棒性。  相似文献   

10.
通过对传统k-means算法优缺点的研究分析,提出一种改进的k-means聚类算法。随机初始化k/2个簇心,划分最大的簇并删除空簇,在更新簇心的同时判断簇心位置的合理性;及时对簇心做出修改,使得最后聚类出的k个簇中不会出现空簇;使用高斯核函数作为测量向量之间距离的方法,提高聚类的准确性。基于此改进的k-means算法,使用在不同网站上采集的文章作为数据源,并利用TF-IDF以及Word2Vec技术对文本进行向量化处理,进而完成对文本的聚类任务。与传统的k-means文本聚类相比,不仅提高了聚类的准确性,而且改善了传统k-means算法结果可能会出现空簇的缺陷。  相似文献   

11.
王莉  周献中  沈捷 《控制与决策》2012,27(11):1711-1714
Lingras提出的粗K均值聚类算法易受随机初始聚类中心和离群点的影响,可能出现一致性和无法收敛的聚类结果.对此,提出一种改进的粗K均值算法,选择潜能最大的K个对象作为初始的聚类中心,根据数据对象与聚类中心的相对距离来确定其上下近似归属,使边界区域的划分更合理.定义了广义分类正确率,该指标同时考虑了下近似集和边界区域中的对象,评价算法性能更准确.仿真实验结果表明,该算法分类正确率高,收敛速度快,能够克服离群点的不利影响.  相似文献   

12.
针对影响k-means聚类效果的聚类数目和初始中心点两大因素,提出了基于双重遗传的kmeans算法。它用外层遗传算法控制聚类数目,用内层遗传算法控制聚类的初始中心点,并采用类间距离和类内距离以及二者之间的比值来评价聚类结果的好坏,在算法终止后,可同时求得较优的聚类数目和某聚类数目下的较优初始中心点。此外,根据内外层遗传算法的特殊性,采用不同的编码策略适应算法需求,为保留优质个体,采用精英个体保留策略。通过UCI数据集测试实例证明此算法有很好的实用性,对数据挖掘技术有一定参考价值。  相似文献   

13.
现有粗糙K-means聚类算法及系列改进、衍生算法均是从不同角度描述交叉类簇边界区域中的不确定性数据对象,却忽视类簇间规模的不均衡对聚类迭代过程及结果的影响.文中引入区间2-型模糊集的概念度量类簇的边界区域数据对象,提出基于区间2-型模糊度量的粗糙K-means聚类算法.首先根据类簇的数据分布生成边界区域样本对交叉类簇的隶属度区间,体现数据样本的空间分布信息.然后进一步考虑类簇的数据样本规模,在隶属度区间的基础上自适应地调整边界区域的样本对交叉类簇的影响系数.文中算法削弱边界区域对较小规模类簇的中心均值迭代的不利影响,提高聚类精度.在人工数据集及UCI标准数据集的测试分析验证算法的有效性.  相似文献   

14.
图像分割是计算机视觉领域的一个基础问题,涉及图像检索、物体检测、物体识别、行人跟踪等众多后续任务。目前已有大量研究成果,有基于阈值、聚类、区域生长的传统方法,也有基于神经网络的流行算法。由于图像区域边界的不确定性问题,现有算法并没有很好地解决图像部分区域渐变导致的边界模糊问题。粒计算是解决复杂问题的有效工具之一,在不确定的、模糊的问题上取得了良好的效果。针对现有图像分割算法在不确定性问题上的局限性,基于粒计算思想,提出了一种粗糙不确定性的图像分割方法。该算法在K均值算法的基础上,结合邻域粗糙集模型,先对类别边界区域的像素点进行粒化,运用邻域关系矩阵,得到各类别对各粒化像素点的包含度,从而对边界区域类别模糊的像素点进行重新划分,优化了图像分割的结果。在Matlab2019编程环境中,实验选取了BSDS500数据集中的一张马术训练图片和一张建筑物图片来测试算法性能。实验先对彩色图像进行灰度处理,用K均值算法对图像进行初步分割,再设置邻域因子值,依据边界像素点邻域信息重新划分边界点。对比K均值算法的分割结果可知,所提算法取得了更佳的效果。实验结果表明,该方法在粗糙度这一评价标准上优于K均值算法,可以有效降低图像区域边界的模糊性,实现灰度边界模糊的图像渐变区域的分割。  相似文献   

15.
The success rates of the expert or intelligent systems depend on the selection of the correct data clusters. The k-means algorithm is a well-known method in solving data clustering problems. It suffers not only from a high dependency on the algorithm's initial solution but also from the used distance function. A number of algorithms have been proposed to address the centroid initialization problem, but the produced solution does not produce optimum clusters. This paper proposes three algorithms (i) the search algorithm C-LCA that is an improved League Championship Algorithm (LCA), (ii) a search clustering using C-LCA (SC-LCA), and (iii) a hybrid-clustering algorithm called the hybrid of k-means and Chaotic League Championship Algorithm (KSC-LCA) and this algorithm has of two computation stages. The C-LCA employs chaotic adaptation for the retreat and approach parameters, rather than constants, which can enhance the search capability. Furthermore, to overcome the limitation of the original k-means algorithm using the Euclidean distance that cannot handle the categorical attribute type properly, we adopt the Gower distance and the mechanism for handling a discrete value requirement of the categorical value attribute. The proposed algorithms can handle not only the pure numeric data but also the mixed-type data and can find the best centroids containing categorical values. Experiments were conducted on 14 datasets from the UCI repository. The SC-LCA and KSC-LCA competed with 16 established algorithms including the k-means, k-means++, global k-means algorithms, four search clustering algorithms and nine hybrids of k-means algorithm with several state-of-the-art evolutionary algorithms. The experimental results show that the SC-LCA produces the cluster with the highest F-Measure on the pure categorical dataset and the KSC-LCA produces the cluster with the highest F-Measure for the pure numeric and mixed-type tested datasets. Out of 14 datasets, there were 13 centroids produced by the SC-LCA that had better F-Measures than that of the k-means algorithm. On the Tic-Tac-Toe dataset containing only categorical attributes, the SC-LCA can achieve an F-Measure of 66.61 that is 21.74 points over that of the k-means algorithm (44.87). The KSC-LCA produced better centroids than k-means algorithm in all 14 datasets; the maximum F-Measure improvement was 11.59 points. However, in terms of the computational time, the SC-LCA and KSC-LCA took more NFEs than the k-means and its variants but the KSC-LCA ranks first and SC-LCA ranks fourth among the hybrid clustering and the search clustering algorithms that we tested. Therefore, the SC-LCA and KSC-LCA are general and effective clustering algorithms that could be used when an expert or intelligent system requires an accurate high-speed cluster selection.  相似文献   

16.
移动对象轨迹聚类在城市规划、公共空间设计、移动对象行为预测等领域具有重要的理论指导意义和实际应用价值。针对传统聚类算法(如k-means,DBSCAN)在移动对象轨迹方面聚类效果不佳的问题,提出一种新的轨迹聚类算法iBTC。该算法首先对轨迹进行分段,根据最小描述长度原理,将轨迹分段问题转换为求无向图的最短路径问题,使用Dijkstra算法求得轨迹的最佳分段;然后将轨迹聚类问题转换为一种特殊的异常检测问题,并基于独立森林的思想,使用细分-合并过程对轨迹数据进行聚类;最后在模拟数据集和监控视频记录的行人轨迹公开数据集上进行实验,结果表明该算法能够取得较好的聚类效果。  相似文献   

17.
针对现有的基于流形距离的聚类算法对“绝对流形”数据集较“相对流形”数据集聚类效果佳和参数[ρ]在较大范围内变化时,聚类性能较差等问题,提出基于改进流形距离的粗糙集k-means聚类算法。该算法通过用属性划分和最大最小距离选择初始聚类中心,以改进的流形距离和粗糙集优化k-means,并结合终止判断条件以达到解决边界数据聚类问题和提升聚类效果的目的。仿真结果表明:该算法对“绝对流形”和“相对流形”数据集聚类效果均有较好改善,且参数变化对聚类性能影响较大。  相似文献   

18.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

19.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号