首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于模糊集的蚁群空间聚类方法研究   总被引:1,自引:1,他引:0       下载免费PDF全文
定义了对象间的平均距离,并将平均距离作为对象相似性的论域。通过隶属函数将对象间的相似性映射为论域上的一个模糊子集。由给定的置信水平λ,将模糊集分离为普通集,对蚂蚁是否拾起还是放下对象作出决策,实现对空间数据的聚类。并以矿山实际测量数据为空间数据源,采用基本的蚁群聚类算法和模糊蚁群空间聚类算法分别对其进行聚类。通过对这两种算法的实验结果进行分析比较,证明改进后的算法提高了聚类效果。  相似文献   

2.
基于点面包含关系的GML空间聚类算法   总被引:1,自引:0,他引:1  
目前大多数空间聚类算法主要是针对关系数据,并且没有考虑空间拓扑关系的相似性,为此,对基于空间拓扑关系的空间聚类方法进行研究,提出两种基于点面包含关系的GML空间聚类算法SCGML_IR、SCGML_IR*.两个算法将GML文档中点面空间对象的包含关系作为空间对象相似性度量准则,并用CLOPE算法对空间对象进行聚类.SCGML_IR*算法在SCGML_IR的基础上,采用空间包含索引机制来提高空间包含关系的求解效率.实验结果表明,算法SCGML_IR和SCGML_IR*能实现GML数据的空间聚类,并具有较高的效率.  相似文献   

3.
大多数的空间聚类算法主要针对欧几何空间中的数据对象.然而在大多真实的应用中,空间对象的访问主要受限于空间网络(如道路网络),因此,对道路网络中的对象进行聚类分析更具有现实意义.道路网络中对象之间的距离度量需要通过基于网络的最短路径距离来重新定义,其计算代价高,这使得已有的基于欧几何距离的聚类算法不能直接运用到这种环境中.因此,通过开发道路网络的特征提出了两种新的聚类算法.算法使用网络中的边和结点信息来缩减搜索空间,避免了一些不必要的距离计算.实验结果表明,算法对于真实道路网络中的对象聚类是高效的.  相似文献   

4.
5.
K均值聚类分割是一种有效的基于聚类的图像分割算法.传统的K均值聚类分割算法采用特征空间中的相似性测度来度量像素的归属类别.由于自然景物图像的复杂性,位置邻近且本应属于同一分割区域的像素点,由于它们视觉特征的差异性,导致其在特征空间中相距甚远而被分割为不同的区域.以投票的方法将像素的局部空间位置信息引入到K均值聚类分割算法中,达到了改善分割效果的目的.实验结果证实了该方法的有效性.  相似文献   

6.
介绍了Web文档聚类中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而提出了一种改善向量空间模型以及相似性度量的方法。  相似文献   

7.
针对传统谱聚类算法应用于图像分割时仅采用特征相似性信息构造相似性矩阵,而忽略了像素分布的空间临近信息的缺陷,提出一种新的相似性度量公式--加权欧氏距离的高斯核函数,充分利用图像特征相似性信息和空间临近信息构造相似性矩阵。在谱映射过程中,采用Nystrom逼近策略近似估计相似性矩阵及其特征向量,大大减少了求解相似性矩阵的运算复杂度,降低了内存消耗。对得到的低维向量子空间采用一种新型的聚类算法--近邻传播聚类算法进行聚类,避免了传统谱聚类采用K-means算法对初始值敏感,易陷入局部最优的缺陷。实验表明该算法获得了比传统谱聚类算法更好的分割效果。  相似文献   

8.
针对混合属性数据聚类结果精度不高、聚类结果对参数敏感等问题, 提出了基于残差分析的混合属性数据聚类算法(Clustering algorithm for mixed data based on residual analysis) RA-Clust.算法以改进的熵权重混合属性相似性度量对象间的相似性, 以提出的基于KNN和Parzen窗的局部密度计算方法计算每个对象的密度, 通过线性回归和残差分析进行聚类中心预选取, 然后以提出的聚类中心目标优化模型确定真正的聚类中心, 最后将其他数据对象按照距离高密度对象的最小距离划分到相应的簇中, 形成最终聚类.在合成数据集和UCI数据集上的实验结果验证了算法的有效性.与同类算法相比, RA-Clust具有较高的聚类精度.  相似文献   

9.
为了提高空间网络上对象聚类的准确性,发现潜在的聚类结果,分析了多阈值选择的必要性,提取了空间网络上(以道路网为例)对象的相似性特征,首次提出了基于空间网络的支持向量回归多阈值方案,并将多阈值方案应用到已有的基于道路网络的对象聚类方法中,解决了已有聚类方法中聚类阈值选择困难的问题.性能分析及实验结果表明,多阈值对象聚类方案对真实的道路网络中的对象聚类是有效的.  相似文献   

10.
柳盛  吉根林  李文俊 《计算机科学》2011,38(8):179-181,204
目前大多数聚类算法主要针对空间点对象且未考虑空间对象的拓扑关系。利用空间线对象相交关系定义了空间线对象连接度,提出一种基于连接度的空间线对象聚类算法SLCC(Spatial Lines Clustering Algorithm Based on Connectivity)。该算法以K-means算法为基础,以空间线对象的连接度作为“距离”进行空间线对象聚类。实验结果表明,SLCC算法能实现空间线对象的空间聚类,并具有较高的效率。  相似文献   

11.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

12.
基于粗糙集的改进K—Modes聚类算法   总被引:3,自引:0,他引:3  
传统的K-Modes算法采用简单匹配的方法来计算对象之间的距离,并没有充分考虑同一属性下的两个不同值之间的相似性.基于粗糙集中的上、下近似,提出了一种新的距离度量,并重新定义了类中心,对传统K-Modes算法进行了改进.与其他改进K-Modes算法进行了比较,实验结果表明,基于粗糙集的改进K-Modes算法有效地提高了聚类精度.  相似文献   

13.
Local density adaptive similarity measurement for spectral clustering   总被引:3,自引:0,他引:3  
Similarity measurement is crucial to the performance of spectral clustering. The Gaussian kernel function is usually adopted as the similarity measure. However, with a fixed kernel parameter, the similarity between two data points is only determined by their Euclidean distance, and is not adaptive to their surroundings. In this paper, a local density adaptive similarity measure is proposed, which uses the local density between two data points to scale the Gaussian kernel function. The proposed similarity measure satisfies the clustering assumption and has an effect of amplifying intra-cluster similarity, thus making the affinity matrix clearly block diagonal. Experimental results on both synthetic and real world data sets show that the spectral clustering algorithm with our local density adaptive similarity measure outperforms the traditional spectral clustering algorithm, the path-based spectral clustering algorithm and the self-tuning spectral clustering algorithm.  相似文献   

14.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。  相似文献   

15.
一个好的聚类算法应该是用户输入参数少,对噪声不敏感,能够发现任意形状,可以处理高维数据,具有可解释性和可扩展性.将聚类分析应用于地理信息系统中,可以实现对GIS数据信息概括和综合.文中提出一种基于距离阈值相邻的聚类算法,通过距离阈值可达的方式逐个将对象加入到已知聚类中,可以发现任意形状的聚类并对噪声数据有很好的分离效果,实验中将该算法应用于地理信息系统中的数据挖掘实现上,结果证明此算法对于实现GIS聚类具有满意的效果.  相似文献   

16.
相似性度量是聚类分析的重要基础,如何有效衡量类属型符号间的相似性是相似性度量的一个难点.文中根据离散符号的核概率密度衡量符号间的相似性,与传统的简单符号匹配及符号频度估计方法不同,该相似性度量在核函数带宽的作用下,不再依赖同一属性上符号间独立性假设.随后建立类属型数据的贝叶斯聚类模型,定义基于似然的类属型对象-簇间相似性度量,给出基于模型的聚类算法.采用留一估计和最大似然估计,提出3种求解方法在聚类过程中动态确定最优的核带宽.实验表明,相比使用特征加权或简单匹配距离的聚类算法,文中算法可以获得更高的聚类精度,估计的核函数带宽在重要特征识别等应用中具有实际意义.  相似文献   

17.
吴玲玉  白尘 《计算机应用研究》2013,30(11):3283-3286
传统属性空间的密度聚类算法仅考虑对象属性取值相似度, 网络空间密度聚类算法仅关注对象间关系紧密度。针对两类算法的不足, 提出一种兼顾属性距离及关系强度的密度聚类算法。在构建兼顾属性距离及关系强度的网络之后, 完善了近邻对象及核心对象的概念, 并给出了相应的聚类策略。理论分析和实验结果表明, 由于综合考虑了属性、关系及关系强度信息, 算法规避了对象属性值分布对聚类过程的影响, 改善了聚类效果, 并能有效识别枢纽点和孤立点。  相似文献   

18.
基于项目聚类的全局最近邻的协同过滤算法   总被引:1,自引:0,他引:1  
用户评分数据极端稀疏的情况下,传统相似性度量方法存在弊端,导致推荐系统的推荐质量急剧下降。针对 此问题,提出了一种基于项目聚类的全局最近部的协同过滤算法。该算法根据项目之间的相似性进行聚类,使得相似 性较高的项目聚成一类,在项目聚类集的基础上,计算用户的局部相似度,使用一种新的最近部用户全局相似度作为 衡量用户间相似性的标准;其次,给出了一种利用重叠度因子来调节局部相似度的方法,以更准确地刻画用户之间的 相似性。实验结果表明,该算法可以提升预测结果的准确性,提高推荐质量,特别是在数据较为稀疏时,改善尤为明 显。  相似文献   

19.
阈值优化的文本密度聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对DBSCAN算法的聚类性能受全局阈值影响而降低的问题,提出一种阈值优化的文本密度聚类算法。该算法使用k-近邻距离对对象进行排序,通过分位数区分密度不同的各序列,找到与其对应的优化,根据优化阈值使用密度聚类方法对对象进行聚类。改进后的聚类算法克服了阈值选取对聚类结果影响的问题,提高了聚类精确度和时间效率。采用树形结构存储聚簇,增加了聚簇的可读性。实验结果证明了该算法的有效性。  相似文献   

20.
Traditional clustering models based on distance similarity are not always effective in capturing correlation among data objects, while pattern-based clustering can do well in identifying correlation hidden among data objects. However, the state-of-the-art pattern-based clustering methods are inefficient and provide no metric to measure the clustering quality. This paper presents a new pattern-based subspace clustering method, which can tackle the problems mentioned above. Observing the analogy between mining frequent itemsets and discovering subspace clusters, we apply pattern tree – a structure used in frequent itemsets mining to determining the target subspaces by scanning the database once, which can be done efficiently in large datasets. Furthermore, we introduce a general clustering quality evaluation model to guide the identifying of meaningful clusters. The proposed new method enables the users to set flexibly proper quality-control parameters to meet different needs. Experimental results on synthetic and real datasets show that our method outperforms the existing methods in both efficiency and effectiveness.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号