首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
传统的基于网格与密度的聚类方法需要用户输入间隔距离和密度阀值参数,聚类的结果不平滑,不能很好地判断边界对象的网格归属。提出了一种自动根据对象的数量确定间隔的距离和聚类的数量的聚类方法,合理地将对象进行聚类划分,并将聚类的结果构建Hilbert R-tree索引,通过实验表明算法在建立时间和其他性能上均优于传统的Hilbert R-tree索引。  相似文献   

2.
基于数据场的粗糙聚类算法   总被引:1,自引:1,他引:1  
聚类分析是数据挖掘的研究热点.传统的聚类算法都是把一个对象精确地划分到一个聚类簇中,类别之间的界限是非常精确的.随着Web挖掘技术的发展,精确地划分每个对象的聚类算法面临着巨大的挑战.根据数据场理论和经典粗糙集理论所具有处理不精确与不确定性数据的特性,提出一种新的基于数据场的粗糙聚类算法,该粗糙聚类算法采用势值作为对象的划分依据,避免传统粗糙聚类算法一贯采用基于欧氏距离的划分方法.算法首先通过对数据对象进行粗分然后再不断迭代细分,直至形成稳定的聚类簇.实验分析过程中,把提出的算法与粗糙K-means算法和粗糙K-medoids算法进行了比较,结果表明该算法在交叉数据集上具有较好的聚类效果,而且收敛速度较快.  相似文献   

3.
聚类分析作为一种重要的非指导学习方法,在多媒体数据管理中得到越来越多的应用,如对图像进行聚类预处理,有助于发现图像之间的语义相似性、减少检索代价等.但是,由于图像语义与视觉特征之间的差异,使得图像聚类的效果还有待进一步提高.聚类分析中,图像通常用高维特征向量表示,显然,在描述图像的相似性方面,各个维所代表的视觉特征的重要性是不一样的,甚至彼此矛盾.传统方法通过权重调整或降维并不能很好地解决上述问题.提出一种新的动态子空间距离计算公式(DSDF),根据任意两幅图像之间关联比较密切的维度,计算出图像之间的相似子空间距离,并利用Clarans聚类算法进行图像子空间聚类.实验表明,该方法在图像聚类效果上明显优于传统聚类方法.  相似文献   

4.
传统的模糊等价关系聚类方法不能根据具体的约束条件进行聚类,使得聚类结果准确性低,不满足要求。为解决该问题,在传统方法的基础上,根据距离约束条件预处理数据集并且扩维,提出一种新的模糊聚类方法。通过数据间的Euclid距离以及约束条件为每个数据建立数据间关系,用来描述数据间的约束条件满足情况,同时将此作为数据的新增维度,更新原数据集并重新构建相似程度方程,获得对应的相似矩阵并基于模糊等价关系进行聚类。在真实数据集上的实验结果表明,与传统无指导的模糊等价关系聚类方法相比,提出的聚类方法克服了不能根据具体约束条件进行准确聚类的缺陷,具有更高的准确性。  相似文献   

5.
基于粗糙集的混合属性数据聚类算法   总被引:2,自引:0,他引:2  
范黎林  王娟 《计算机应用》2010,30(12):3377-3379
传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。  相似文献   

6.
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率.  相似文献   

7.
大多数的空间聚类算法主要针对欧几何空间中的数据对象.然而在大多真实的应用中,空间对象的访问主要受限于空间网络(如道路网络),因此,对道路网络中的对象进行聚类分析更具有现实意义.道路网络中对象之间的距离度量需要通过基于网络的最短路径距离来重新定义,其计算代价高,这使得已有的基于欧几何距离的聚类算法不能直接运用到这种环境中.因此,通过开发道路网络的特征提出了两种新的聚类算法.算法使用网络中的边和结点信息来缩减搜索空间,避免了一些不必要的距离计算.实验结果表明,算法对于真实道路网络中的对象聚类是高效的.  相似文献   

8.
王骏  黄德才 《计算机科学》2016,43(Z11):436-442
摘要位置不确定性数据的聚类是一个新的不确定性数据聚类问题。其聚类方法主要包括获取对象的概率密度函数,通过积分计算对象间的期望距离来进行聚类分析和以区间数表示对象,通过区间数的系列运算来进行聚类分析这两大类。前者存在概率密度函数获取困难、计算复杂、实用性不强的缺陷;后者在区间数转化为实数过程中,忽略了区间数变化范围对聚类效果的影响,其聚类质量不佳。鉴于此,提出一种基于联系数的不确定对象聚类新算法UCNK-Means。该算法用联系数巧妙地表示不确定性对象,并专门定义了对象间的联系距离,运用联系数态势值比较联系距离大小,克服了现有算法的不足。仿真实验表明,UCNK-Means具有聚类精度高、计算复杂度低、实用性强的特点。  相似文献   

9.
传统的聚类方法不能直接运用于分布空间内存在障碍物的数据的聚类.提出了一种障碍空间内基于密度的快速聚类算法DBCO来解决此类问题.DBCO中,在基于密度的聚类基础上引入了障碍模型,提出了一种保持数据间可见性的简化障碍的方法.为了使障碍模型不影响聚类质量,定义了障碍顶点距离、连接距离和判断距离来维持聚类的质量.另外,在聚类过程中,选择某一些代表点和拓展点而不是每一个点来对每一个聚类进行扩展,从而大大提高了聚类算法的效率.实验结果表明了DB-CO算法可以快速地得到高质量的聚类结果.  相似文献   

10.
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号