首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
为降低DBSCAN算法的运行时间,结合MCMC(Markov chain Monte Carlo,马尔可夫链蒙特卡洛)采样方法对DBSCAN进行改进,提出一种聚类算法,称为DBSCAN++。其基本思想是优先扩展拓展能力较强的核心对象。通过实验将DBSCAN++与DBSCAN和OPTICS进行对比,实验结果表明,从算法运行时间看,DBSCAN++比DBSCAN平均降低了60.7%,比OPTICS平均降低了70.2%;从聚类准确性角度看,DBSCAN++与DBSCAN和OPTICS相当。在没有影响聚类准确性的情况下,DBSCAN++具有更低的运行时间,是一种有效的聚类算法。  相似文献   

2.
网格聚类中的边界处理技术   总被引:4,自引:0,他引:4  
提出利用限制性k近邻和相对密度的概念识别网格聚类边界点的技术,给出网格聚类中的边界处理算法和带边界处理的网格聚类算法(GBCB).实验表明,聚类边界处理技术精度高,能有效地将聚类的边界点和孤立点/噪声数据分离开来.基于该边界处理技术的网格聚类算法GBCB能识别任意形状的聚类.由于它只对数据集进行一遍扫描,算法的运行时间是输入数据大小的线性函数,可扩展性好.  相似文献   

3.
科学工作流执行过程中,多个任务组成的聚类作业相对单任务故障风险更高。容错聚类算法在进行故障恢复的同时面临着负载不平衡问题,为此提出了一种平衡重聚类算法(Balanced Re-clustering,BR)。该算法结合水平运行时间平衡聚类算法(Horizontal Runtime Balancing,HRB)对选择重聚类方法(Selective Re-clustering,SR)进行改进,将运行时间最长的任务分配给运行时间最短的类,在故障发生后重新运行失败的任务。实验结果表明,与现有的两种任务重聚类方法相比,BR算法的性能增益最高分别可达84%和18.75%,显著降低了工作流执行成本,提高了系统的运行效率。  相似文献   

4.
针对处理高维海量数据时聚类算法用时太长的问题,提出基于抽样的多模态分布聚类优化算法,该算法随机地抽取少量样本进行循环校正,减少聚类时间,通过大量实验找出算法的最优配置参数,结果证明,该优化算法以11.8%的聚类运行时间得到了88%的聚类准确性,为高时间成本的应用环境提供了最优的聚类方案。  相似文献   

5.
海沫  张游 《计算机科学》2017,44(Z6):414-418
通过实验,从运行时间、加速比、可扩展性和规模增长性4个方面比较了 Spark平台中3种典型的聚类算法即K-means聚类算法、二分K-means聚类算法和高斯混合聚类算法 的性能。实验结果表明:1)随着节点个数的增加,3种算法对百兆以上规模数据集聚类的运行时间明显减少;2)当数据集规模大于500MB时,3种算法的加速比均有明显提高,且随着节点个数的增加,加速比近似于线性增长;3)3种算法的可扩展性随着节点个数的增加而降低,当数据集规模大于500MB时,相对于K-means和高斯混合算法,二分K-means算法的可扩展性最差;4)当数据集规模大于100MB时,高斯混合算法的规模增长性远高于K-means和二分K-means算法。  相似文献   

6.
黄学雨  向驰  陶涛 《计算机应用研究》2021,38(10):2988-2993,3024
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and im-proved density peak partition clustering algorithm,MR-IDPACA).首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing).通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果.实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升.  相似文献   

7.
唐海波  林煜明  李优  蔡国永 《计算机应用》2018,38(11):3132-3138
针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。  相似文献   

8.
现有基于密度的聚类方法主要用于点数据的聚类,不适用于大规模轨迹数据。针对该问题,提出一种利用群组和密度的轨迹聚类算法。根据最小描述长度原则对轨迹进行分段预处理找出具有相似特征的子轨迹段,通过两次遍历轨迹数据集获取基于子轨迹段的群组集合,并采用群组搜索代替距离计算减少聚类过程中邻域对象集合搜索的计算量,最终结合群组和密度完成对轨迹数据集的聚类。在大西洋飓风轨迹数据集上的实验结果表明,与基于密度的TRACLUS轨迹聚类算法相比,该算法运行时间更短,聚类结果更准确,在小数据集和大数据集上的运行时间分别减少73.79%和84.19%,且运行时间的减幅随轨迹数据集规模的扩大而增加。  相似文献   

9.
根据“隐蔽疏散配置”选取原则,提出了一种计算机辅助生成陆战旅待机地域选取方案的新方法。为克服传统蚂蚁聚类算法运行时间长、仅能处理结构化数据等不足,给出了一种两阶段模糊蚂蚁聚类算法。对第1阶段聚类后数据进行融合操作,减少了第2阶段聚类的数据量、数据分布空间和迭代次数。实验证明,该算法是一种高效率、鲁棒性好的算法。该选取方法实现了陆战旅待机地域选取方案的自动、准确、快速计算机辅助生成。  相似文献   

10.
改进的离群核模糊聚类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对离群点数据的发现问题,提出一种改进的离群核模糊聚类算法,利用先验知识,选择聚类目标函数,并将聚类中心作为初始化参数,有效提高算法的收敛速度,减少其整体运行时间,仿真实验结果表现,该算法是有效的。  相似文献   

11.
In a mobile communication environment, people's interactions with public emergency assistance organizations become transformed. Sociologists argue that we live in an age when fear and anxiety are increasingly evident in public discourse; this paper explores Swedish conceptions of emergency calls, in light of this trend. A qualitative study examined eight focus groups, comprising 36 Swedish citizens aged 16–71 years, concerning various uses of mobile telephony. The paper concludes that citizen mobile telephony use places great demands on the public safety answering point (PSAP). Consumer expectations are dominated by increased necessity for trustworthy and helpful interaction with PSAP operators.  相似文献   

12.
In this paper, we propose, design, implement, and evaluate a CPU scheduler and a memory management scheme for interactive soft real-time applications. Our CPU scheduler provides a new CPU reservation algorithm that is based on the well-known Constant Bandwidth Server (CBS) algorithm but is more flexible in allocating the CPU time to multiple concurrently-executing real-time applications. Our CPU scheduler also employs a new multicore scheduling algorithm, extending the Earliest Deadline First to yield Window-constraint Migrations (EDF-WM) algorithm, to improve the absolute CPU bandwidth available in reservation-based systems. Furthermore, we propose a memory reservation mechanism incorporating a new paging algorithm, called Private-Shared-Anonymous Paging (PSAP). This PSAP algorithm allows interactive real-time applications to be responsive under memory pressure without wasting and compromising the memory resource available for contending best-effort applications. Our evaluation demonstrates that our CPU scheduler enables the simultaneous playback of multiple movies to perform at the stable frame-rates more than existing real-time CPU schedulers, while also improves the ratio of hard-deadline guarantee for randomly-generated task sets. Furthermore, we show that our memory management scheme can protect the simultaneous playback of multiple movies from the interference introduced by memory pressure, whereas these movies can become unresponsive under existing memory management schemes.  相似文献   

13.
商品的个性化推荐是电子商务个性化服务中非常重要的一个方面,而聚类协作过滤则是推荐系统中采用最为广泛的技术。在基于聚类协作过滤的商品个性化推荐中的聚类算法通常采用划分聚类,文章根据电子商务网站的特点,提出了用改进的Rock层次凝聚算法Improved-Rock实现基于购买商品类别相似性的用户聚类。模拟实验结果表明该算法的应用是有实际价值的。  相似文献   

14.
商品的个性化推荐是电子商务个性化服务中非常重要的一个方面,而聚类协作过滤则是推荐系统中采用最为广泛的技术。在基于聚类协作过滤的商品个性化推荐中的聚类算法通常采用划分聚类,文章根据电子商务网站的特点,提出了用改进的Rock层次凝聚算法Improved-Rock实现基于购买商品类别相似性的用户聚类。模拟实验结果表明该算法的应用是有实际价值的。  相似文献   

15.
聚类技术就是将数据分为自然的群体,并给出每个群的特征描述的一种数据方法。但是传统的聚类算法对高维大规模数据的处理效率不高,张铃教授提出的交叉覆盖算法可以有效地处理大规模的聚类问题,因而本文提出基于覆盖算法的聚类。同时注意到可以用粒度来描述聚类粗细,因此在聚类中引入粒度。  相似文献   

16.
一种改进的多视图聚类集成算法   总被引:1,自引:0,他引:1  
邓强  杨燕  王浩 《计算机科学》2017,44(1):65-70
近年来,针对大数据的数据挖掘技术和机器学习算法研究变得日趋重要。在聚类领域,随着多视图数据的大量出现,多视图聚类已经成为了一类重要的聚类方法。然而,大多数现有的多视图聚类算法受算法参数设置、数据样本等影响,具有聚类结果不稳定、参数需要反复调节等缺点。基于多视图K-means算法和聚类集成技术,提出了一种改进的多视图聚类集成算法,其提高了聚类的准确性、鲁棒性和稳定性。其次,由于单机环境下的多视图聚类算法难以对海量的数据进行处理,结合分布式处理技术,实现了一种分布式的多视图并行聚类算法。实验证明,并行算法在处理大数据时的时间效率有很大提升,适合于大数据环境下的多视图聚类分析。  相似文献   

17.
模糊c均值聚类算法是目前聚类分析中最受欢迎的算法之一,但其聚类效果往往受初始参数的影响.针对这一问题,提出一种基于网格和密度的模糊c均值聚类初始化方法.以网格和密度为工具提取聚类样本的类聚类中心,以此来初始化模糊c均值聚类算法的初始参数,从而弥补原算法的不足.实验证明方法是可行的、有效的.  相似文献   

18.
Existing models for cluster analysis typically consist of a number of attributes that describe the objects to be partitioned and one single latent variable that represents the clusters to be identified. When one analyzes data using such a model, one is looking for one way to cluster data that is jointly defined by all the attributes. In other words, one performs unidimensional clustering. This is not always appropriate. For complex data with many attributes, it is more reasonable to consider multidimensional clustering, i.e., to partition data along multiple dimensions. In this paper, we present a method for performing multidimensional clustering on categorical data and show its superiority over unidimensional clustering.  相似文献   

19.
一种协同的FCPM模糊聚类算法   总被引:1,自引:0,他引:1  
比重隶属度模糊聚类(FCPM)算法可从不同角度解决聚类问题,取得较好效果。协同聚类算法利用不同特征子集之间的协同关系,并与其它聚类算法相结合,可提高原有的聚类性能。文中在FCPM聚类算法的基础上进行改进,将其与协同聚类算法相结合,提出一种协同的FCPM聚类算法。该算法在原有FCPM聚类算法的基础上,提高对数据集的聚类效果。在对数据集Wine和Iris进行测试的结果表明,该方法优于FCPM算法,说明该方法的有效性。  相似文献   

20.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号