首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
针对利用最小包围盒(MBB)压缩的移动物体时空轨迹,为了能对其进行有效地聚类,提出了一个基于盒内数据点密度的轨迹间相似性度量公式.首先,把两条轨迹的相似性度量转化为两条轨迹上有时间交叠的MBB之间的相似性度量,这在很大程度上减少了数据存储量.其次,分析两条轨迹上有时间交叠的MBB之间影响相似性的因素:时间持续、空间距离和盒内数据点的密度.剖析这3个因素对轨迹相似性的影响作用,提出了利用MBB压缩的移动物体时空轨迹相似性度量公式.实验证明采用本公式对移动物体时空轨迹进行聚类,可以提高聚类结果有效性指标Dunn的值.  相似文献   

2.
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。  相似文献   

3.
随着卫星定位传感器的普及应用,形成了海量移动对象的轨迹数据.轨迹数据含有丰富的时空特征信息,通过对相关数据聚类处理,可以挖掘出移动对象的活动场景、位置等属性信息.通过借鉴神经成像学领域中的QuickBundles算法,介绍算法原理和实现,并基于此算法实现了一种轨迹聚类方法,通过使用实际GPS数据对此方法进行验证,从对聚...  相似文献   

4.
一种新的中心对称聚类算法   总被引:2,自引:0,他引:2  
Data clustering is an important reserch field in data mining.The key of the clustering algorithm is the distance measure.In this paper,we put forward a new distance measure based on central symmetry,Then we apply it to data clustering.The experimental studies prove the feasibility of this algorithm and get a satisfied result in face detection.  相似文献   

5.
聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提出一种改进的搜索密度峰值的聚类算法,引入密度估计熵自适应优化算法参数。对比实验结果表明,改进方法不仅可以较好地解决原算法的参数人为确定的不足,而且具有相对更好的聚类性能。  相似文献   

6.
章永来  周耀鉴 《计算机应用》2019,39(7):1869-1882
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。  相似文献   

7.
数据库聚类的一个关键问题是数据库中存储数据的格式与聚类算法所要求的输入数据格式之间的差异,为了弥补这一差异,提出基于模块单元的数据表示方法,该方法能够有效提高数据库的聚类能力。  相似文献   

8.
罗会兰  危辉 《计算机科学》2010,37(11):234-238
提出了一种基于集成技术和谱聚类技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据间的相似性,这种相似性度量没有对数据特征值分布模型做任何的假设。基于此相似性度量得到的待聚类数据的相似性矩阵,应用谱聚类算法得到混合数据聚类结果。大量真实和人工数据上的实验结果验证了CBEST的有效性和它对噪声的鲁棒性。与其它混合数据聚类算法的比较研究也证明了CBEST的优越性能。CBEST还能有效融合先验知识,通过参数的调节来设置不同属性在聚类中的权重。  相似文献   

9.
一种基于熵的聚类算法   总被引:1,自引:1,他引:1  
王洪春  彭宏 《计算机科学》2007,34(11):178-179
给出了一种以Reny熵为评价准则的聚类算法,通过非参数估计法估计密度函数,再利用类内熵和类间熵进行聚类和确定聚类的数目。这种算法不需要用户输入与聚类有关的参数,能根据由数据的分布的特性自动获取要聚类的数目,并能发现任意形状和任意大小的聚类。实验结果显示了算法的有效性和优越性。  相似文献   

10.
张岩金  白亮 《计算机科学》2021,48(4):111-116
由于在实际应用中有大量的符号数据生成,符号数据聚类成为了聚类分析的一个重要研究领域.目前,已有许多符号数据聚类算法被提出,但将它们应用于大数据环境时,仍然存在计算成本高、运行速度慢等问题.文中提出了一种基于符号关系图的快速符号数据聚类算法.该算法使用符号关系图替代原始数据,缩小数据集的规模,有效地解决了这一问题.大量的...  相似文献   

11.
涉及障碍物的聚类方法研究   总被引:4,自引:0,他引:4  
在空间数据挖掘中,传统聚类算法忽略了真实世界中障碍物的存在,而障碍物会影响聚类结果的合理性。讨论了面对障碍物的聚类问题,并给出了一个考虑障碍物存在时的基于划分的聚类算法。该算法充分考虑到了现实障碍物对聚类结果的影响,使得聚类结果更具有实际意义。  相似文献   

12.
在空间数据挖掘中,传统聚类算法忽略了真实世界中障碍物的存在,而障碍物会影响聚类结果的合理性。在文中讨论了面对障碍物的聚类问题,并给出了一个考虑障碍物存在时的基于划分的聚类算法。该算法充分考虑到了现实障碍物对聚类结果的影响,使得聚类结果更具有实际意义。  相似文献   

13.
Clustering by Pattern Similarity   总被引:2,自引:0,他引:2       下载免费PDF全文
The task of clustering is to identify classes of similar objects among a set of objects.The definition of similarity varies from one clustering model to another.However,in most of these models the concept of similarity is often based on such metrics as Manhattan distance,Euclidean distance or other L_p distances.In other words,similar objects must have close values in at least a set of dimensions.In this paper,we explore a more general type of similarity.Under the pCluster model we proposed,two objects are similar if they exhibit a coherent pattern on a subset of dimensions.The new similarity concept models a wide range of applications.For instance,in DNA microarray analysis,the expression levels of two genes may rise and fall synchronously in response to a set of environmental stimuli.Although the magnitude of their expression levels may not be close,the patterns they exhibit can be very much alike.Discovery of such clusters of genes is essential in revealing significant connections in gene regulatory networks.E-commerce applications,such as collaborative filtering,can also benefit from the new model,because it is able to capture not only the closeness of values of certain leading indicators but also the closeness of (purchasing,browsing,etc.) patterns exhibited by the customers.In addition to the novel similarity model,this paper also introduces an effective and efficient algorithm to detect such clusters,and we perform tests on several real and synthetic data sets to show its performance.  相似文献   

14.
基于模糊最近邻的高维数据聚类   总被引:3,自引:0,他引:3  
提出一种基于模糊最近邻的聚类算法(简称FNNC算法).FNNC算法通过加权共享最近邻图来形成簇,而且仅仅使用对象图中一些有用的连接.本文通过实验验证了FNNC算法在高维数据聚类中的有效性.  相似文献   

15.
一种Web用户行为聚类算法   总被引:13,自引:0,他引:13  
提出了一种新的路径相似度系数计算方法,并使之与雅可比相似系数结合,用于计算用户访问行为的相似度,在此基础之上又提出了一种分析web用户行为的聚类算法(FCC)。通过挖掘Web日志,找出具有相似行为的web用户,由于FCC聚类算法过滤了小于指定阚值的相似度系数,大大缩小了数据规模,很好地解决了其他聚类算法(如层次聚类)在高堆空间聚类时的“堆数灾难”问题,最后的实验结果很好。  相似文献   

16.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1  
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

17.
为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其装换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。  相似文献   

18.
用户在访问Web站点时会碰到很多问题,主要原因是Web站点对用户需求缺乏适应性。为了提高Web用户的服务质量和用户的满意度,在用户访问网站点击流形成频繁序列模式的基础上,提出基于距离函数的聚类分析以及基于时间相似度函数的二次聚类分析算法。该算法可以求取频繁序列的相关性和反映用户对网页的兴趣的相似度,对下一步改善Web站点的结构及存在形式使站点达到更好的效果起先导作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号