首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类.与传统聚类方法相比,对于规模很大的数据集,AP是一种快速、有效的聚类方法.正是这样,属性约简对于AP算法非常重要.另外,在大规模并行系统的设计中,细粒度并行是实现高性能的基本策略.提出了一种基于改进属性约简的细粒度并行AP聚类算法(IRPAP),将粒度思想引入到并行计算中.首先分析了并行计算中的粒度原理.然后用改进的属性约简算法对数据集预处理.此算法并行计算并选择差别矩阵元素,降低了时间空间复杂度,最后用AP算法聚类.整个IRPAP算法将任务划分到多个线程同时处理.实验证明,对于大规模数据集的聚类,IRPAP算法比AP算法效率更高.  相似文献   

2.
黄华  彭蓉  冯在文 《软件学报》2018,29(11):3241-3259
在由多个行业云服务平台组成的集成服务平台中,随着行业云服务平台加盟数及各平台下租户数量的不断增多,其底层的云工作流模型库的规模也必将不断增大.当云工作流模型库的规模超大时,需要一种效率更高的并行检索方法去满足云工作流模型库高效检索的需求.鉴于此,文章将采用均匀划分法或自动聚类法对大规模云工作流模型库进行合理的子集划分,并结合前期工作中已改进的基于图结构的流程检索算法,提出基于数据集分割的大规模云工作流模型库并行检索方法.该方法主要包括4种流程并行检索算法:基于均匀划分模型集的静态并行检索算法、基于均匀划分模型集的动态并行检索算法、基于自动聚类模型集的静态并行检索算法及基于自动聚类模型集的动态并行检索算法.最后,在模拟生成的大规模流程集及真实的云工作流模型库中对这4种并行检索算法的检索效率进行实验评估.  相似文献   

3.
通过分析传统遗传算法和多亲遗传算法的不足,提出了一种多亲遗传算法的改进算法:基于共享存储器的多亲遗传算法,并对其进行了理论分析,讨论了GA的并行模型特点后,结合粗粒度并行模型和群体分组的并行方式,提出了一种MGASM的并行模型,该模型有利于改进MGASM的性能,提高其搜索效率。将MGASM-PPGA应用到了数据聚类问题中,进行了仿真实验,获得了理想的实验结果。  相似文献   

4.
动态粒度下的粗糙集近似   总被引:6,自引:0,他引:6  
粒度计算是粗糙集理论研究的一种强有力的工具。本文讨论了粒度意义下的粗糙集近似,并定义了动态粒度下的正向近似。另外,本文还从粒度的角度讨论了聚类结果和先验知识的协调度问题,并提出了一种基于动态粒度下的正向近似的聚类算法。这些结果将有助于粒度计算和粗糙集理论的研究。  相似文献   

5.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

6.
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。  相似文献   

7.
针对大数据下密度聚类算法中存在的数据划分不合理、参数寻优能力不佳、并行性能较低等问题,提出一种基于IFOA的并行密度聚类算法(density-based clustering algorithm by using improve fruit fly optimization based on MapReduce,MR-DBIFOA)。首先,该算法基于KD树,提出网格划分策略(divide gird based on KD tree,KDG)来自动划分数据网格;其次在局部聚类中,提出基于自适应搜索策略(step strategy based on knowledge learn,KLSS)和聚类判定函数(clustering criterion function,CCF)的果蝇群优化算法(improve fruit fly optimization algorithm,IFOA);然后根据IFOA进行局部聚类中最优参数的动态寻优,从而使局部聚类的聚类效果得到提升;同时结合MapReduce模型提出局部聚类算法DBIFOA(density-based clustering algorithm using IFOA);最后提出了基于QR-tree的并行合并局部簇算法(cluster merging algorithm by using MapReduce,MR-QRMEC),实现局部簇的并行合并,使算法整体的并行性能得到加强。实验表明,MR-DBIFOA在大数据下的并行效率更高,且聚类效果更好。  相似文献   

8.
现有的聚类融合算法从聚类成员的角度出发,若使用全部聚类成员则融合结果受劣质成员影响,对聚类成员进行选择再进行融合则选择的策略存在主观性。为在一定程度上避免这两种局限性,可以从元素的角度出发,提出一种新的聚类融合方法。通过多粒度决策不一致粗糙集来选择一部分类别确定的元素,再利用这部分元素进行聚类融合生成新的划分;多粒度决策不一致粗糙集模型能够刻画多粒度决策过程中属性一致而决策不一致的现象,提出了一种基于多粒度决策不一致的粗糙集模型,并给出了一种聚类融合方法。具体做法是:首先在数据集上多次使用K-means聚类算法,生成论域上的多个粒结构;其次对所有粒结构两两之间求粒间包含度,建立包含度矩阵,对矩阵使用Otsu算法计算阈值,得出多组满足阈值条件的信息粒,求解多粒度决策不一致下近似和上近似;最后分别处理下近似与边界域中元素的类别,从而获得了一个经过融合的聚类划分。实验结果表明,该方法能够有效改善聚类的结果,具有较高的时间效率,且算法具有较好的鲁棒性。  相似文献   

9.
为了解决大规模的数据聚类问题时需要的大量计算,提出了一种模糊系统的微粒群优化并行k-means聚类算法。该方法利用模糊规则,动态地调整微粒群惯性权重和加速因子,克服群体逐渐失去迁移性而停止进化的问题,保证群体多样性而避免陷入局部极小值。采用任务并行和部分异步通信模式,降低计算时间。实验结果表明,该算法在并行机群上运行时,加快了聚类算法的计算速度,提高了聚类质量。  相似文献   

10.
周兵  冯中慧  王和兴 《计算机科学》2007,34(10):195-199
本文的目的就是通过理论分析和试验,探讨集群环境下并行聚类算法的设计思想。作为一种低成本、通用并行系统,集群系统的通讯能力相对于节点的计算能力是一个瓶颈。所以本文提出,在集群环境下设计并行聚类算法时,应采用数据并行的思想。本文首先从理论上,对采用数据并行思想后影响加速比的因素和通讯策略的选择进行了分析,然后实现了一个新的并行聚类算法——PARC算法。通过PARC算法的实验,证明了理论分析的正确性,并且表明并行聚类算法可以得到良好的聚类质量。本文的研究结果可以为以后设计更好的数据并行聚类算法提供一定的理论依据。  相似文献   

11.
一种并行数据库的动态多维数据分布方法   总被引:7,自引:0,他引:7  
李建中 《软件学报》1999,10(9):909-916
并行数据库系统的性能与数据库在多处理机之间的分布密切相关.目前已经出现一些并行数据库的数据分布方法.但是,这些方法都不能有效地支持动态数据库.文章提出了一种并行数据库的动态多维数据分布方法.该方法不仅能够有效地支持动态数据库的分布,还具有多维数据分布的诸多优点.此方法由初始数据分布机构和启发式动态数据分布调整机构组成.初始分布机构完成给定数据库文件的初始分布.动态数据分布调整机构实现动态数据库数据分布的动态调整.理论分析和实验结果表明,这种方法十分有效,并且能够有力地支持动态数据库上的各种并行数据操作算法.  相似文献   

12.
一种基于人工免疫系统的聚类算法   总被引:1,自引:2,他引:1  
根据数据分析中聚类判断所遵循的原则,模拟抗体捕获抗原的机制,提出了一种基于人工免疫系统的聚类算法,最终可以获得全局最优解,并且具有本质上的并行性、计算效率高和聚类能力强等优点。  相似文献   

13.
In this study, we explore the combination of two well defined topics in fuzzy systems research: fuzzy rule based systems, and information granulation. Rule based systems are a powerful and well-studied form of knowledge representation, due to their approximation abilities and interpretability. In recent years, these types of systems have become increasingly powerful with regards to modeling accuracy; however, many of these improvements come at the cost of model interpretability. This recent direction of research has left an unexplored avenue towards the generation of increasingly interpretable fuzzy rule based models, which we intend to explore. Information granulation is a relatively new, yet very promising area of research in human centric systems. As a form of knowledge representation, information granulation is very well suited to fuzzy rule based systems, where rules represent linguistic quantities in a, intuitively understandable format. It is notable that the combination of these two concepts has been left largely unstudied. We aim to explore this union by defining a methodology for the construction of a partially granular fuzzy rule based model. The aim of this novel model format is to provide a first step in the improvement of fuzzy model interpretability, through the use of information granulation. We are additionally interested in studying new ways of generating fuzzy rules; hence, we will also look at the use of hierarchical clustering as a potential alternative to the tried and tested Fuzzy C Means clustering algorithm. The models created using hierarchical clustering are then compared with those generated using Fuzzy C Means to evaluate the effectiveness of this algorithm. As a result of these experiments, we demonstrate that partially granular fuzzy rules are capable of providing a significant improvement to fuzzy rule interpretability, and we believe that granular fuzzy models present an exciting avenue of future research in human centric systems.  相似文献   

14.
随着海量大数据的出现,聚类算法需要新型计算模式来提高计算速度与运行效率。本文提出一种基于动态双子种群的差分进化K中心点聚类算法DGP-DE-K-mediods(Dynamic Gemini Population based DE-K-mediods)。DGP-DE-K-mediods利用动态双子种群方法,解决聚类算法在维持种群密度的时候避免陷入局部最优的问题;采用差分进化(Differential Evolution, DE)算法来提高全局最优能力的强健性;基于Hadoop云平台来并行处理DGP-DE-K-mediods,加快算法的运行速度和效率;描述基于MapReduce的并行聚类算法的编程过程;DGP-DE-K-mediods利用UIC的大数据分类的案例数据和网络入侵检测这种大数据应用来仿真算法的效果。实验结果表明,与已有的聚类算法相比,DGP-DE-K-mediods在检测精度、运行时间上有明显的优势。  相似文献   

15.
经典的粗糙集理论刻画目标概念运用静态的粒度分析,不便于刻画人们问题求解的动态认知过程。已有文献分别用正向近似和逆向近似对目标概念和目标决策进行刻画,并成功地应用于分层聚类算法和规则提取方面。基于动态粒度原理,提出双向近似的概念,获得双向近似的一些重要性质,并将其应用于决策表中决策规则的获取。  相似文献   

16.
基于量子计算的并行性、进化计算简单、通用性好等优点,采用量子编码构造进化算法的染色体种群,再将二者引入到核聚类中来,提出了一种基于量子进化规划的核聚类算法.该算法充分利用了量子态的叠加性以及量子比特的概率表示,能够表示出许多可能的线性叠加状态,具有更好的种群多样性,因此将其用于解决核聚类算法中目标函数的优化问题,可以有效克服传统进化算法收敛速度慢以及早熟等问题.对Brodatz纹理图像及SAR图像进行分割,仿真实验结果表明该算法可以较好地改善图像分割效果.  相似文献   

17.
黄琳  陈耀文 《微计算机信息》2007,23(27):255-257
本文在克隆选择免疫算法和层次聚类的基础上,提出一种动态聚类算法。该算法无需先验知识,首先初始化与抗原相同规模的抗体,然后根据亲和力进行抗原识别、抗体抑制和合并,完成一轮聚类;再利用aiNET免疫网络模型动态确定聚类后的抗体的变异方向,实施强目的性变异,变异率反比例于进化代数动态调节,使变异后相似的抗体进一步合并,如此反复直到满足终止条件。仿真的实验结果表明,该算法比传统的聚类方法具有更好的聚类结果和更高的性能。  相似文献   

18.
增量式挖掘方法有适应大规模动态数据、降低内存需求和可实现并行处理等诸多好处,但是目前的增量式聚类方法存在参数限制较多和计算结果不够准确等问题.在信息源变化的数据挖掘体系结构下,利用一群特殊的智能代理增量修改知识模型,提出了群体智能聚类模型的构建方法及增量模型维护算法.该方法利用信息熵加快聚类过程,根据信息素和数据库的插入及删除增量操作调整已生成的聚群,设定的参数较少,实验表明聚类结果准确.  相似文献   

19.
本文构造了一种能准确描述文本之间相似性(亲和力)的新方法,并在此基础上提出了一种基于人工免疫网络的文本聚类算法。仿真结果表明,与传统的文本聚类算法相比,新算法不仅能自动发现新类,而且具有聚类精度更高、数据压缩比更大、与输入初始配置无关、可增量处理的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号