首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于密度梯度的聚类算法研究   总被引:1,自引:0,他引:1  
陈治平  王雷  李志成 《计算机应用》2006,26(10):2389-2392
针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。  相似文献   

2.
为解决现有密度聚类算法中参数设置依赖经验、复杂密度环境下聚类精度不高等问题,提出了基于簇间最大密度连通点进行密度簇分割与合并的模糊聚类方法。基于高斯混合模型计算数据点密度,形成高维离散密度空间,通过低精度网格连续数据空间,结合插值算法赋予空白网格相应密度,构建连续高维密度空间。对数据点按密度排序后,利用能否从大于当前密度的点集中连续可达识别密度极大值点,再以密度序实现极大值点的邻域扩张,以扩张矛盾实现稀疏交界处最大密度连通点识别、密度簇分割。最后基于最大密度连通点计算密度簇间隶属度,设定隶属度阈值,实现相关邻簇的合并,完成聚类。通过与多种密度聚类算法进行仿真对比验证,该算法大大降低了经验参数的依赖性,具有全局统一的合并隶属度,提升了多密度下的类识别能力。  相似文献   

3.
子空间聚类任务中的无标记数据具有维度高、数据分布分散等特点,传统方法对数据预处理未进行详细地针对化设计且大多使用欧氏距离度量数据间的相似性,使聚类性能提升受限.因此,本文提出融入无监督度量学习的稀疏子空间聚类模型,该算法将距离度量与子空间聚类联合到同一框架,设计由两步组成的聚类过程.该方法对原始数据进行度量学习并重构了稀疏子空间聚类模型,使数据预处理不再是一个单独的步骤,最大限度地将输入的无标记数据之间相似度提高,有效提升了子空间聚类性能、加强了模型泛化能力.我们在真实公开数据集上进行实验测试,实验结果表明该方法优于现有的子空间聚类算法,具有良好的聚类性能.  相似文献   

4.
连续状态自适应离散化基于K-均值聚类的强化学习方法   总被引:5,自引:1,他引:5  
文锋  陈宗海  卓睿  周光明 《控制与决策》2006,21(2):143-0148
使用聚类算法对连续状态空间进行自适应离散化.得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习.使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CMAC网络的强化学习方法进行比较.结果表明该方法具有节省存储空间和缩短计算时间的优点.  相似文献   

5.
聚类有效性是聚类分析中尚未解决的基本问题,最佳聚类数的确定是聚类有效性问题中的主要研究内容。以几何概率为理论依据,针对2维数据集提出了一种新的聚类有效性函数,用于确定最佳聚类数。该函数利用2维数据集与2维离散点集之间存在的对应关系,以2维离散点集在特征空间中的分布特征为依据,测度对应数据集的聚类结构,思路直观、容易理解。测度过程中,将点集中的点两两相连生成一个线段集合保存点集的结构信息,通过比较线段集合中线段方向取值与完全随机条件下线段方向取值的相对大小,构造聚类有效性函数。实验结果表明,针对给定的样本数据集,生成该函数的曲线,再根据曲线的形态能够有效地确定2维数据集的最佳聚类数,指导聚类算法设计。  相似文献   

6.
徐盈盈  钟才明 《计算机应用》2014,34(8):2184-2187
模式识别与机器学习的一些算法只能处理离散属性值,而在现实生活中的很多数据具有连续的属性值,针对数据离散化的问题提出了一种无监督的方法。首先,使用K-means方法将数据集进行划分得到类别信息;然后,应用有监督的离散化方法对划分后的数据离散化,重复上述过程以得到多个离散化的结果,再将这些结果进行集成;最后,将集成得到的最小子区间进行合并,这里根据数据间的邻居关系选择优先合并的维度及相邻区间。其中,通过数据间的近邻关系自动寻求子区间数目,尽可能保持其内在结构关系不变。将离散后的数据应用于聚类算法,如谱聚类算法,并对聚类后的效果进行评价。实验结果表明,该算法聚类精确度比其他4种方法平均提高约33%,表明了该算法的可行性和有效性。通过该算法得到的离散化数据可应用于一些数据挖掘算法,如ID3决策树算法。  相似文献   

7.
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。  相似文献   

8.
目前应用于基因表达数据上的双聚类算法大多是基于真实数据提出的, 因此易受噪声干扰, 且这些算法很少考虑样本间的时序性。提出了一种有效的时间点连续的双聚类挖掘算法DTCB, 从离散的时序基因表达数据中挖掘出时间点连续的最大共表达双聚类。该算法使用了一种新的数据离散化方法, 同时提出了三种在离散数据集下基因间的共表达关系; 为了提高挖掘效率, DTCB使用了有效的剪枝和输出策略, 可以在不产生候选集的情况下一次性挖掘出所有的最大共表达双聚类。通过实验分析, 证明DTCB具有高效的性能和良好的鲁棒性, 且结果具有较好的统计和生物意义。  相似文献   

9.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

10.
高维数据集的处理是计算机视觉领域的核心,子空间聚类是实现高维数据聚类使用最广泛的方法之一.传统的子空间聚类假定数据来自不同的线性子空间,且不同子空间的区域不重叠.然而,现实中的数据往往不满足这两个约束条件,使得子空间聚类的效果受到影响.为了解决这两个问题,引入核化子空间来解决子空间数据的非线性问题,引入子空间系数矩阵的二阶近邻来处理重叠的子空间问题.随后,设计了基于二阶近邻的核化子空间三步聚类算法,首先求取核化子空间数据的自相似系数,然后消除子空间的重叠区域,最后对系数矩阵进行谱聚类.将所设计的子空间聚类算法首先在人工数据集上进行了测试,随后在人脸、场景字符和生物医学3类数据集中共12个真实数据集上进行了实验.实验结果表明,所提算法相比最新的几种算法具有一定的优势.  相似文献   

11.
根据Forman 的离散Morse 理论的特点, 提出一种基于离散Morse 理论的优化模型. 该模型在3 维及以上空间点构建离散Morse 函数进行最优化, 得到了问题的最优解或近似最优解. 同时, 证明了所构建的函数确实是复形上的离散Morse 函数. 利用4 个典型的测试函数进行仿真实验, 结果表明了该模型的有效性, 且该模型尤其适用于解决大数据量的优化问题. 从聚类的过程即目标函数的优化过程这一角度考虑, 尝试将优化模型应用于聚类分析. 仿真实验结果表明, 所提出的算法能较好地划分数据点重叠区域的聚类形状, 验证了所提出算法的可行性和有效性.  相似文献   

12.
空间插值分析算法综述   总被引:3,自引:0,他引:3  
空间插值分析算法是一种应用于将离散点的测量数据转换为连续数据表面的算法,能够将连续数据曲面与其他空间现象的分布情况进行比较,它在空间信息方面具有广泛的应用场景,尤其是地理信息方面.对泰森多边形法、反距离权重插值法、样条函数插值法、克里金插值法等空间插值算法的插值原理和应用场景进行综述,对空间插值分析算法的进展和未来研究方向进行了探讨.  相似文献   

13.
周世波  徐维祥 《控制与决策》2018,33(11):1921-1930
聚类是数据挖掘领域的一个重要研究方向,针对复杂数据集中存在的簇间密度不均匀、聚类形态多样、聚类中心的识别等问题,引入样本点k近邻信息计算样本点的相对密度,借鉴快速搜索和发现密度峰值聚类(CFSFDP)算法的簇中心点识别方法,提出一种基于相对密度和决策图的聚类算法,实现对任意分布形态数据集聚类中心快速、准确地识别和有效聚类.在7类典型测试数据集上的实验结果表明,所提出的聚类算法具有较好的适用性,与经典的DBSCAN算法和CFSFDP等算法相比,在没有显著提高时间复杂度的基础上,聚类效果更好,对不同类型数据集的适应性也更广.  相似文献   

14.
在大数据量的环境下,传统空间数据的空间关系仅描述两个空间物体,从而出现数据存储冗余,检索速度慢等问题。提出改进的聚类算法对空间物体聚类,再在聚类结果的基础上表示空间物体的方向关系。提出了基于密度的K-均值算法和空间聚类与方向关系融合的新方法。所提方法增强了空间数据库对空间数据对象的空间方向关系的智能处理能力,节省了存储空间,提高了数据的查询速度。  相似文献   

15.
瞿原  邓维斌  胡峰  张其龙  王鸿 《计算机科学》2018,45(1):97-102, 107
点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。  相似文献   

16.
为了缓解火灾现场受困人员定位时间长以及定位精度低的问题,研究基于改进FCM聚类算法的隧道火灾受困人员信息化定位方法。采用改进FCM聚类算法分割隧道火灾图像,利用SIFI算法提取完成分割后隧道火灾图像的空间特征,利用Gabor小波方法获取隧道火灾图像空间特征内的面积边缘以及烟雾纹理,建立方向角分布模型以及烟雾变化能量模型...  相似文献   

17.
蚁群聚类算法中确定相邻对象方法的改进   总被引:1,自引:1,他引:0       下载免费PDF全文
基本蚁群聚类算法在计算相似度时,由于没有考虑相邻对象之间方向的影响,往往造成聚类速度缓慢甚至算法不收敛。通过引入相邻对象方向角和屏蔽角,对方向接近的相邻对象进行屏蔽,实现对确定相邻对象方法的改进。并以矿山实际测量数据为数据源,采用基本的蚁群聚类算法和改进后的算法分别对其进行聚类。通过对这两种算法的实验结果进行分析比较,证明改进后的算法提高了聚类效果。  相似文献   

18.
In multivariate statistical methods, it is important to identify influential observations for a reasonable interpretation of the data structure. In this paper, we propose a method for identifying influential data in the fuzzy C-means (FCM) algorithm. To investigate such data, we consider a perturbation of the data points and evaluate the effect of a perturbation. As a perturbation, we consider two cases: one is the case in which the direction of a perturbation is specified and the other is the case in which the direction of a perturbation is not specified. By computing the change in the clustering result of FCM when given data points are slightly perturbed, we can look for data points that greatly affect the result. Also, we confirm an efficacy of the proposed method by numerical examples  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号