首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

2.
基于GraphLab的分布式近邻传播聚类算法   总被引:1,自引:1,他引:0  
为有效实现海量数据的非线性聚类,提出基于GraphLab的分布式流式近邻传播算法--GStrAP(GraphLab based stream affinity propagation)。该算法将数据抽象为有向无环图模型,采用“Gather-Apply-Scatter”的模式完成数据同步和算法迭代。在人工合成流形数据3D Clusters、Aggregation、Flame和Pathbased数据集上分别采用不同数据规模以及与传统K-means的聚类性能做对比,实验表明:基于GraphLab的近邻传播算法对数据规模具有良好的拓展性,在保持算法聚类效果的同时,有效降低时间复杂度。  相似文献   

3.
提出了共享单车故障车辆回收的流程,采用K-means算法对共享单车故障车辆进行聚类,形成聚类服务点,在此基础上构建了以车辆回收工作总成本最小为目标的共享单车故障车辆回收模型,并使用Cplex优化软件求解。以北京市某片区共享单车为例,验证了模型和方法的有效性。结果表明:装载容量的取值对回收任务产生较大影响,本文模型和算法可较好地应用于共享单车故障车辆回收任务中。  相似文献   

4.
针对密度峰值聚类算法在处理分布不均匀数据集时聚类性能不佳且不能自动确定聚类中心的问题,提出基于共享邻域的密度峰值聚类算法(DPC-SN)。首先,考虑数据点的局部邻域信息和数据点间的相关性,根据共享邻域重新定义局部密度;其次,给出了新的决策阈值作为区分聚类中心和非聚类中心的临界值,自动获取聚类中心;最后,在不同分布特征的合成数据集和UCI数据集进行实验验证。结果表明,该算法聚类精度和总体性能优于基于K近邻的密度峰值聚类(DPC-KNN)、原始密度峰值聚类(DPC)、K均值聚类(K-means)和基于密度的聚类(DBSCAN)4种算法。  相似文献   

5.
基于分布模型的层次聚类算法   总被引:1,自引:0,他引:1  
提出了一种新的层次聚类算法,先对数据集进行采样,以采样点为中心吸收邻域内的数据点形成子簇,再根据子簇是否相交实现层次聚类。在层次聚类过程中,重新定义了簇与簇之间的距离度量,并以此为基础建立堆结构。利用估计数据点总体分布的思想,证明该算法将逼近最优解。实验结果表明,算法的聚类效果大大优于现有的聚类算法。  相似文献   

6.
利用多尺度变换将高维数据映射成低维数据,便于近邻传播聚类。仿真证明,与传统近邻传播算法相比,基于多尺度变换的近邻传播算法聚类精度高,收敛速度快。  相似文献   

7.
聚类分析的一个重要应用就是图像识别,谱聚类因为比传统的聚类方法更高效而迅速被广泛运用到图像处理中。谱聚类算法其中一个重要的步骤是构造一个合适的相似矩阵,本文提出一种基于共享近邻重要性的自适应谱聚类算法且应用到数字手写图像识别中,与自适应谱聚类算法做比较试验,表明谱聚类算法能取得较好的识别结果。  相似文献   

8.
目的提出一种可以发现不同密度层次分布的聚类算法,解决多层次不同密度数据集的聚类问题.方法采用对数据对象的k-邻居距离进行排序,利用线性回归分析方法发现密度区域变化的边界,对同一个密度区域中的点利用DBSCAN算法进行聚类,获得了多密度级别的类.结果使用真实数据集与人工数据集测试结果表明,此算法可以发现现有算法所不能发现的模式.结论算法在时间效率上与DBSCAN相同,空间效率上随着输入数据的数目增加而线性增长,同时此算法可适用于高维数据集.  相似文献   

9.
针对共享单车停靠点供需时空失衡、潮汐效应明显、优化选择水平低的问题,本文把区域编码与分类学习方法相结合,提出一种基于GeoHash与K最近邻模型(K Nearest Neighbor model,KNN)的共享单车停靠点优化选择方法。首先,在分析现有共享单车停靠问题的基础上,利用GeoHash算法的区域编码分割,得到停靠点空间分布;然后,在停靠点可供选择数量和可容纳车辆数量的双重约束条件下,利用KNN聚类算法进行二次划分,完成共享单车停靠点的优化选择;最后,利用厦门市思明区和湖里区共享单车数据进行综合评价。研究结果表明,该方法具有一定的合理性,能够为缓解共享单车停靠点潮汐现象提供有益借鉴。  相似文献   

10.
现有数据流聚类算法多数面向的是确定性数据,可是不确定数据的数据流聚类逐步被受到关注,因为经典的不确定数据聚类算法具有概率密度函数获取困难、实用性不强以及计算复杂等缺点,提出一种基于区间数的不确定数据流聚类算法UIDStream.算法用区间数来表示属性不确定性数据和基于区间数的距离计算方法,定义了不确定性数据之间的相似度,并利用传统k近邻聚类的思想,提出基于区间数的2k近邻微簇和最优2k近邻微簇的概念,通过最优2k近邻微簇的融合,实现不确定数据流的聚类.实验结果表明:改进后的算法具有良好的聚类效果,提高了不确定数据流聚类的聚类质量和速率.  相似文献   

11.
针对并行化密度聚类的过程中,不同密度聚类簇边界点划分模糊,并且存在数据噪声,从而影响聚类性能,使聚类结果受制于局部最优影响的问题,提出一种基于MapReduce与优化布谷鸟算法的并行密度聚类算法。首先,该算法结合K-means中的近邻与逆近邻思路的策略KDBSCAN(K-means DBSCAN),通过计算各数据点的影响空间,以此重新定义基于密度的聚类(Density-based spatial dutering of apptications with noise,DBSCAN)算法中聚类簇的拓展条件,避免了不同密度聚类簇边界点划分模糊的问题;其次,结合KDBSCAN密度聚类中的近邻思想提出了一种可行的迭代性噪声点处理策略,减轻数据中噪声点对于聚类算法性能的影响;再次,提出基于传统布谷鸟算法的优化改进策略MCS(Majorization cuckoo search),通过衰减发现巢穴概率的权重,随着迭代搜寻次数的增加提升算法收敛速度,解决了聚类结果受制于局部最优的问题;最后,结合MapReduce提出了并行密度聚类策略MCS-KDBSCAN,通过并行化密度聚类算法运算,减轻了并行聚类...  相似文献   

12.
针对多维数据属性对聚类分析结果有不同重要程度影响的问题,提出一种基于自适应属性加权的近邻传播聚类算法。该方法通过考虑多维数据属性权值的重要度,在近邻传播聚类过程中引入属性加权相似性矩阵计算,并根据当前数据聚类划分的结果来分析目标评价函数,计算各个属性对当前聚类的贡献程度。随后根据贡献程度的计算结果自适应地更新属性权值,并通过属性加权相似性矩阵来重新计算近邻传播算法中的两种竞争信息,进而提高聚类结果的质量。数值实验结果表明,新方法能够有效实现属性权值的自适应调整,提高近邻传播算法的聚类效果,与其他传统聚类算法相比新方法具有更好的聚类质量。  相似文献   

13.
针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI值和ANMI值均高于对比算法.  相似文献   

14.
为使多路谱聚类方法对复杂结构数据集有效地聚类,根据矩阵扰动理论,利用局部近邻关系更新谱聚类算法(NJW)中的初始相似度矩阵,得到最终的亲和矩阵.理论分析表明,数据集可划分时,该矩阵是理想块矩阵或接近理想块矩阵,保证了本文算法聚类划分的正确性.将本文算法和基于路径的谱聚类、密度敏感的谱聚类以及基于流平面排序的谱聚类进行了比较,结果表明,本文算法在数据集具有复杂分布结构时可以确定聚类个数,得到正确的聚类结果.进一步将本文算法用于真实数据集上的聚类分析,表明本文算法是有效的.  相似文献   

15.
用户对Web站点的访问代表了用户对Web站点上页面的访问兴趣。这种兴趣程度可以通过用户对Web站点上页面的浏览顺序表现出来。Web站点的访问日志记录了用户访问页面的详细信息。在对Web站点的访问日志进行事务识别后,按照访问兴趣对群体用户对Web站点的访问顺序进行聚类分析,则每一个聚类集反映出该聚类集中的全体用户具有相似的访问兴趣。文中在用户访问兴趣度量中综合考虑用户访问路径、网页内容、在此页面的驻留时间、此页面浏览频度因素,提出了一种基于用户访问兴趣的路径聚类算法。最后通过实验来验证这种算法的有效性。  相似文献   

16.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷,提出基于进化思想的聚类算法及其类簇融合算法.该算法将K均值聚类算法嵌入进化聚类算法框架中,通过调整距离倍参,将数据逐渐划分,在此过程中自动确定类簇数目,提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法,将相似度大的类簇进行融合,使得k值逐渐趋向真实值.实验表明,该方法具有良好的实用性.  相似文献   

17.
一类基于贝叶斯信息准则的k均值聚类算法   总被引:1,自引:0,他引:1  
典型k-均值算法中的聚类数k必须是事先给定的确定值,然而,实际应用中k很难被精确地确定。同时该算法对初始聚类中心的依赖性而导致聚类结果可能陷入局部极小,使得该算法对一些实际问题无效。采用基于密度聚类算法(DBSCAN),在筛选局部代表点时结合贝叶斯信息准则(BIC),得到少量精准反映局部数据分布的BIC核心点。然后,以BIC核心点为初始聚类中心,BIC核心点数量为类别数,对全局数据进行k-均值聚类。实验结果表明,优化的k-均值算法是一种有效可行的聚类算法。  相似文献   

18.
为提供丰富的环境信息,提出一种基于分层混合信息构建复合地图的方法,针对准结构化环境,将几何特征划分为规则区域和非规则区域,在非规则区域采用改进的基于网格的共享近邻算法(GNN)进行非规则聚类,并引入贝叶斯概率算法进行动态信息处理.实验结果验证了方法的有效性及实用性.  相似文献   

19.
现有的k-均值聚类算法大都是以距离差异为基础的,而同等重要地依赖所有属性的相似性度量会引起误导.传统的k-均值算法选择的相似性度量通常是欧几里德距离的倒数,这种距离通常涉及所有的特征.而在距离公式中引入一些特征权值后,其聚类结果将依赖于这些权值,从而可以通过调整这些权值优化聚类效果.由于k-均值算法是迭代算法,很难直接确定其权值以优化聚类结果,因此提出了一种通过免疫算法学习权值的方法以改进聚类结果.实验结果显示,该方法确定的权重值在提高聚类效果方面是可行的、有效的.  相似文献   

20.
针对传统聚类算法在对复杂密集型数据集聚类时不能取得较好聚类结果的问题,利用进化聚类算法对复杂密集型数据集进行聚类,提出一种基于蚁群系统的聚类算法(clustering algorithm based on ant colony system,CAACS),利用蚂蚁在行进路径中释放信息素且追求浓信息素的原理来实现蚂蚁的随机搜索,并引入近邻函数值的概念来确定样本数据之间的相似性,通过蚂蚁在行走过程中不断建立样本数据之间的最相似连接来形成各个子连通图,各个子连通图中的样本数据构成一个类。实验采用随机产生的不规则数据集以及一系列合成的数据集将CAACS算法与DBSCAN算法(density-based spatial clustering of application with noise)及面向非规则非致密空间分布数据的蚁群聚类方法进行比较。实验结果表明CAACS算法对复杂密集型数据集能达到较好的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号