首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
k-means聚类算法中,初始聚类中心的选取与数据中的离群点都对算法的结果有着非常大的影响。针对这一问题,提出一种基于网格和密度的k-means聚类算法GD-k-means,该算法首先将数据集映射到网格上形成网格簇进行初步聚类,利用密度阈值将网格分为低密度网格簇和高密度网格簇,在高密度网格簇中选取初始聚类中心,并利用传统的k-means算法进行迭代,通过评价条件判定是否需要进行网格簇的合并。聚类完成之后按照距离最近的原则对低密度网格簇中的数据进行相应的分配。实验结果表明:GD-k-means算法聚类结果更稳定,并且能够抵抗噪音数据的干扰。  相似文献   

2.
为了实现智能化处理海量的航班数据,提高空中交通管理的效率,保障机场终端区空域中的航空器能够安全有序地运行,提出一种数据分析模型,用于从大量轨迹数据中高保真地表征空中交通流。通过基于DBSCAN密度聚类算法将轨迹聚类,用聚类评价指标调整、确定轨迹簇最佳类别数,用均值法提取中心线,以单个代表性轨迹概括轨迹簇,结合现有定义,提出了机场终端区交通流的定义。利用首都机场进行实例验证,结果表明此方法能够有效显示终端区轨迹特征。  相似文献   

3.
提出一种人群活动热点区域的识别方法。利用实际电信用户位置数据,使用网格作为地理空间数据的索引结构,对用户移动轨迹数据进行网格划分,进而利用网格密度和种子网格聚类算法给出热点区域的判定方法,并利用Top-k查询方法选出密度阈值限定热点区域的覆盖范围。仿真表明,该算法能识别出人群活动热点区域,与具有噪声的基于密度的聚类方法算法相比,能够减少热点区域识别时间,增强处理的实时性。  相似文献   

4.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

5.
随着信息技术的快速发展,能够获取人们大量的轨迹数据。通过轨迹数据挖掘出城市热点区域,对城市规划、交通管理和一些基于位置的服务都具有重要意义。针对已有的数据挖掘方法,如k均值聚类算法、基于密度的聚类(Density Based Spatia Clustering of Applications with Noise,DBSCAN)算法、谱聚类(Spectral Clustering,SC)算法、密度峰值聚类(Density Peak Clustering,DPC)算法等,存在非凸数据集上聚类效果较差,对初始中心敏感,参数选择困难,时间复杂度较高等问题,提出基于网格划分和DPC改进谱聚类算法用于城市热点区域分析。在合成数据集上的实验结果表明,其聚类精度和时间与经典聚类算法相比具有一定的提升。在西安市出租车数据集上的实验结果表明,提出的算法能有效挖掘出城市热点区域。  相似文献   

6.
针对时变无线信道抽头簇的提取和轨迹追踪提出了一种新方法:首先在时延-幅度维上采用反向传播(BP)神经网络对无线信道冲激响应(CIR)进行去噪,然后利用k-means聚类算法对有效抽头信号进行分簇,再用基于密度的空间聚类(DBSCAN)算法去除各个簇峰值抽头中的异常值,最后采用多项式拟合对去除异常值后的簇峰值抽头进行拟合,得到其时间变化轨迹.经过仿真和实测数据验证,该方法得到的簇峰值时间变化轨迹与根据几何关系得到的结果一致.  相似文献   

7.
为提升区域交通信号系统的控制效率,提出了一种基于车辆轨迹数据和密度峰值聚类的城市路网交通控制子区划分方法。首先,结合轨迹数据特性并综合考虑交叉口间距、车辆延误、车队离散度等因素的影响,定义并计算了交叉口的关联度指标。其次,根据关联度指标得到交叉口的距离矩阵,作为密度峰值聚类算法的输入;针对密度峰值聚类的超参数设置问题,引入数据场理论中势能熵的概念确定最优值;同时,借鉴肘部法则的思想确定聚类中心数量。最后,将改进的密度峰值聚类算法应用于交叉口子区划分中。以北京市中关村西区真实车辆轨迹数据的实验分析表明:本文方法可以仅基于车辆轨迹数据实现城市路网交通控制子区的高效、合理划分。  相似文献   

8.
针对K-means异常检测算法检测性能低的问题,提出了一种结合信息熵与改进K-means算法的异常检测算法。该算法均匀地选出密度大于数据集平均密度的数据对象作为初始聚类中心,避免了初始中心的随机选择。在此基础上,引入了信息熵确定属性权重的方法来计算簇中数据点与该簇聚类中心的加权欧氏距离,通过对比簇中数据点的加权欧氏距离与该簇中所有数据点的平均加权欧氏距离来进行异常检测。实验表明,改进算法具有更高的检测率和更低的误检率,应用于电力负荷数据时检测率达到了90. 5%,能够有效地检测出异常的负荷数据。  相似文献   

9.
数据挖掘技术中聚类算法的改进研究   总被引:1,自引:0,他引:1  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

10.
一种改进的势函数欠定盲源分离算法   总被引:1,自引:0,他引:1  
针对原有的拉普拉斯混合模型势函数法复杂度高、随机选取部分观测数据点作为初始聚类中心的算法聚类结果不稳定、准确率低的问题,提出了一种改进的势函数欠定盲源分离算法.该算法在基于密度概念的基础上,以簇内距离小、簇间距离大为原则,选取部分高密度点作为势函数的初始聚类中心.理论分析与仿真实验表明,改进算法的复杂度大大降低,而估计准确度降低很少.在信噪比为10dB时,该算法仿真时间降为原始势函数法的5%;相对随机选取算法,在计算复杂度基本一致的前提下,该算法的估计准确度大大提高,源信号个数估计准确率由61%提高到85%,混合矩阵估计误差由0.47下降为0.27.  相似文献   

11.
作为数据挖掘的一项重要技术,聚类分析具有广泛的应用领域.同时,聚类也是数据挖掘领域中一个相对比较困难的问题.在聚类算法中,基于模糊划分的FCM算法是一种重要的算法.和其它的算法相比,FCM算法具有计算简单、运算速度快,且有比较直观的几何意义的优点,因此在图像处理、模式识别等领域得到了广泛的应用.和所有的c均值算法一样,FCM算法也是只用类中心来表示类,这样只是适合球状类型的簇.本文在目前FCM算法研究的基础上,讨论了传统FCM算法在原型初始化上的局限性.提出一种基于层次凝聚的改进算法,使之能够适用于不规则分布的数据.  相似文献   

12.
为了弥补传统聚类思想下的信号控制时段划分算法忽略了交通流量序列的时间特性的缺点,引入有序聚类建立智能化的交通控制时段划分方法.针对特定分割数目下的任意一种可能划分方案,用类表示特定时段内部的数据序列集合,以直径为参数测算类内样本差异性,以所有类内直径总和作为指标衡量划分结果损失值及方案优劣性.为了降低传统有序聚类时间复杂度,引入动态递归策略,建立特定分割数目下最佳方案的快速求解方法,通过识别不同分割个数下最小损失值突变点,获取最佳分割数和最优方案.基于该方法得到的最优划分在实际交通规划中对比常用方法,交通运行效率得到了显著提升.  相似文献   

13.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

14.
分类算法是时间序列数据挖掘中极为重要的任务和技术,该文提出一种基于簇中心群的时间序列数据分类方法。该方法根据时间序列训练数据集中的类别标签进行簇划分,利用近邻传播算法分别对每个簇进行中心代表点选择,构造出各代表点的代表对象集;然后借助基于动态时间弯曲的均值中心方法对各代表对象集实现中心群计算,结合改进后的K近邻算法实现时间序列数据的分类。数值实验结果表明,与传统方法相比,新方法具有更好的分类效果和计算性能。  相似文献   

15.
涌现分簇算法ACE是一类基于群体智能的移动Ad hoc网络分簇算法。针对ACE算法迭代中存在的问题,该文引入概率机制,提出了基于概率机制的涌现分簇算法(PACE)。该算法根据节点竞争簇头概率最高的局部信息,创建全局分簇网络,在概率相同的情况下,根据节点标识符来仲裁簇头选举,同时实现了单节点簇合并和失效恢复。理论分析和仿真结果表明,该算法收敛时间短,能够创建稳定且更优化的分簇结构,具备失效恢复能力。  相似文献   

16.
针对全局K-均值算法时间复杂度大的问题,提出一种增量选择初始聚类中心的新方法。选择数据集中周围分布最密集的样本作为第一个初始聚类中心,选择最小化目标函数贡献大,并且和已有聚类中心距离远的样本作为下一个初始聚类中心。改进算法减少了增量选取初始聚类中心时的计算量,降低了时间复杂度。实验证明,改进算法与全局K-均值算法、快速全局K-均值算法相比,在不影响聚类效果的基础上,减少了聚类时间,与优化初始聚类中心的算法相比,聚类效果更优。  相似文献   

17.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

18.
传统粒子群算法的优点较为明显,但是随着环境复杂度的增高,传统算法的聚类中心敏感度升高,空聚类过多,类标号对聚类结果的影响不足等问题日趋严重.为此,提出了一种改进算法,以半监督K均值聚类为目标,以自适应K值的方式,随机地计算初始化聚类中心,并根据均值聚类算法的需要编码成粒子,同时引入软性约束概念重新构造目标函数;最后使用改进后的算法进行寻优.所提出的粒子群算法改进了自适应参数,引入了免疫扰动和混沌扰动2种扰动方式,同时应用了退火策略和动态聚类策略.实验结果表明,该算法在很大程度上解决了上述问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号