首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
为提高聚类算法效率,提出一种基于动态云平台的快速闭树聚类并行算法。针对云计算平台Hadoop中任务的随机分配策略,给出一个满足最小化消耗成本的任务分配算法 CDA-GA,并基于该算法提出动态云平台模型。将传统的频繁闭树挖掘算法与聚类算法并行化,应用于动态云平台中,设计基于动态云平台的闭树聚类算法框架。实验结果表明,该算法有效可行,适合在大规模数据下进行聚类分析。  相似文献   

2.
Affinity Propagation(AP)聚类算法将所有数据点作为潜在的聚类中心,在相似度矩阵的基础上通过消息传递进行聚类.与传统聚类方法相比,对于规模很大的数据集,AP是一种快速、有效的聚类方法.正是这样,属性约简对于AP算法非常重要.另外,在大规模并行系统的设计中,细粒度并行是实现高性能的基本策略.提出了一种基于改进属性约简的细粒度并行AP聚类算法(IRPAP),将粒度思想引入到并行计算中.首先分析了并行计算中的粒度原理.然后用改进的属性约简算法对数据集预处理.此算法并行计算并选择差别矩阵元素,降低了时间空间复杂度,最后用AP算法聚类.整个IRPAP算法将任务划分到多个线程同时处理.实验证明,对于大规模数据集的聚类,IRPAP算法比AP算法效率更高.  相似文献   

3.
三维网格模型增量式聚类检索   总被引:1,自引:1,他引:0  
针对大规模三维网格模型库中的形状检索问题,提出了基于增量式聚类的三维形状描述和检索方法。首先根据三维模型的曲率分布直方图提取特征点得到特征向量;然后根据特征向量描述建立模型库的关键词词典;在特征 匹配阶段基于增量聚类方法判断目标模型的特征向量是否属于某一个关键词,并根据增量聚类的结果更新检索关键词词典;最后匹配特征向量检索模型库中与目标模型形状相同和相近的三维网格模型。相关实验结果证明了该方法快速有效,具有较高的准确性。  相似文献   

4.
为提高三维模型的检索性能,将聚类分析用于特征描述符的提取以及模型间相似性关系划分等方面,能够对三维模型进行较为合理的分类,对较大规模三维模型数据库的索引和组织进行完善,提高三维模型检索效率。针对当前主流的基于聚类的三维模型检索算法进行分析,比较几种聚类算法的优势与不足,在其基础上进行改进,并继续应用于三维模型的检索中。  相似文献   

5.
一种面向并行空间查询的数据划分方法   总被引:1,自引:0,他引:1  
在并行空间数据库中,空间数据集在各计算节点是否聚集划分,对提高空间并行查询效率起着关键的作用.Oracle Spatial采用的基于格网的划分方法只考虑了数据集在各节点是否均衡划分,而未考虑空间数据的拓扑特征.基于空间数据聚集划分的目的,提出了一种基于K-平均聚类算法的空间数据划分方法.实验证明,该方法极大地提高了空间数据并行检索和查询效率.  相似文献   

6.
为解决模型数据集可视化的问题,提出一种基于聚类结果的簇代表模型可视化方案.首先以等距特征映射算法作为模型特征数据的降维方法,将高维特征数据降至三维,并以该三维数据作为簇代表模型的空间位置坐标;然后采用粒子群优化算法得到模型簇的几何中值点,以距几何中值点最近的模型作为该模型簇的代表模型;最后结合模型的对齐方法来确定簇代表模型的姿态,从而实现模型数据集的可视化.另外,根据查询模型与簇代表模型之间的相似性,提出一个基于聚类结果的模型检索流程.该检索流程首先寻找与查询模型最相似的簇代表模型,然后将查询范围限制在这些簇代表模型对应的模型簇中,从而减少备选模型的数量.检索实验结果表明,在合适的参数组合下,该检索流程可以在保证检索精度的同时大幅提高检索效率.  相似文献   

7.
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVP k-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDP k-means算法进行比较,DVP k-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。  相似文献   

8.
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。  相似文献   

9.
为了提高三维CAD模型检索中模型的局部细节区别能力以及检索效率,提出一种鱼群启发的三维CAD模型聚类及检索方法.依据B-Rep形式CAD模型的属性邻接图以及图谱理论,采用一种融合空间邻接关系的词袋模式作为模型的特征描述子,用于模型聚类与检索中的特征描述及相似性计算;针对模型聚类问题,受鱼群运动模式启发,提出基于全局公告信息引导及模糊c均值修正的人工鱼群聚类算法,将模型库空间聚类划分为若干子空间;模型检索采取两层检索机制:首先通过隶属度函数将索引模型定位至相应搜索子空间,然后在较小的子空间内进行相似性比较.实验结果表明,该方法的特征描述子能较好地区别模型局部细节特征,模型库聚类效果较好,检索质量和效率均有明显提高,可有效地支持CAD模型的重用.  相似文献   

10.
图像是一种典型的可以大量获取的多媒体数据,对它们进行内容管理具有实际意义,描述在BOIC系统中提出并实现的基于聚类机制的图像视觉内容检索和索引方法.首先给出以视觉特征、空间结构、语义注释等来表示图像内容的模型;然后给出基于该模型的三个检索算法,包括基于视觉感知的颜色检索算法、轮廓检索算法、主色调扩展检索算法;最后给出采用集簇算法时媒体数据进行聚类的索引机制.它建立聚类索引表来缩小查询范围,从而提高了检索效率。  相似文献   

11.
In the recent years, the use of workflows has significantly expanded from its original domain of business processes towards new areas. The increasing demand for individual and more flexible workflows asks for new methods that support domain experts to create, monitor, and adapt workflows. The emergent field of process-oriented case-based reasoning addresses this problem by proposing methods for reasoning with workflows based on experience. New workflows can be constructed by reuse of already available similar workflows from a repository. Hence, methods for the similarity assessment of workflows and for the efficient retrieval of similar workflows from a repository are of core importance. To this end, we describe a new generic model for representing workflows as semantically labeled graphs, together with a related model for knowledge intensive similarity measures. Further, new algorithms for workflow similarity computation, based on A⁎ search are described. A new retrieval algorithm is introduced that goes beyond traditional sequential retrieval for graphs, interweaving similarity computation with case selection. We describe the application of this model and several experimental evaluations of the algorithms in the domain of scientific workflows and in the domain of business workflows, thereby showing its broad applicability.  相似文献   

12.
云计算为大规模科学工作流应用的执行提供了更高效的运行环境。为了解决云环境中科学工作流调度的代价优化问题,提出了一种基于协同进化的工作流调度遗传算法CGAA。该算法将自适应惩罚函数引入严格约束的遗传算法中,通过协同进化的方法,自适应地调整种群个体的交叉与变异概率,以加速算法收敛并防止种群早熟。通过4种科学工作流的仿真实验结果表明,CGAA算法得到的调度方案在满足工作流调度截止时间约束与降低任务执行代价的综合性能方面优于同类型算法。  相似文献   

13.
针对当下数据大规模增长对计算能力需求的急剧增长,传统独立运行的机器在大规模网络社区中执行社区检测操作时无法提供所需的数据处理能力的问题,提出一种网络加权Voronoi图的并行分散迭代社区聚类法(NWVD-PDICCM)。利用基于网络加权Voronoi图的分散迭代社区聚类方法(NWVD-DICCM)提取大型网络的有效社区结构。结合并行聚类方法,将DICCM方法的操作从串行过程转换为并行计算。利用执行并行社区聚类时的图分区,通过最小化从属工作者之间的通信来加速该过程。仿真实验结果表明,NWVD-PDICCM可以与一系列计算机架构平台共同运行,并且实现基于Spark平台的并行操作,相比其他几种较新的方法,在大规模网络数据处理能力方面得到显著提升。  相似文献   

14.
余晓山  吴扬扬 《计算机应用》2014,34(6):1595-1599
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。  相似文献   

15.
Scientific workflows have become a valuable tool for large-scale data processing and analysis. This has led to the creation of specialized online repositories to facilitate workflow sharing and reuse. Over time, these repositories have grown to sizes that call for advanced methods to support workflow discovery, in particular for similarity search. Effective similarity search requires both high quality algorithms for the comparison of scientific workflows and efficient strategies for indexing, searching, and ranking of search results. Yet, the graph structure of scientific workflows poses severe challenges to each of these steps. Here, we present a complete system for effective and efficient similarity search in scientific workflow repositories, based on the Layer Decomposition approach to scientific workflow comparison. Layer Decomposition specifically accounts for the directed dataflow underlying scientific workflows and, compared to other state-of-the-art methods, delivers best results for similarity search at comparably low runtimes. Stacking Layer Decomposition with even faster, structure-agnostic approaches allows us to use proven, off-the-shelf tools for workflow indexing to further reduce runtimes and scale similarity search to sizes of current repositories.  相似文献   

16.
传统检索方法查准率和查全率相对较差,导致自动检索精准度较低。为此,提出了基于云计算平台的政务大数据系统自动检索方法研究。在云计算平台下,利用CiteSpace软件对政务大数据系统中的关键词进行统计分析,获取相关资源。在电子政务联机模式下,揭示政务大数据系统中资源相关属性,在MapReduce挖掘模型支持下,进行政务大数据系统数据挖掘,实现政务大数据系统自动检索。实验验证分析,该方法检索查准率和查全率较高,具有高效检索效果。  相似文献   

17.
随着信息技术的不断进步,数据规模不断增大。聚类是一种典型的数据分析方法,尤其是对大规模数据进行聚类分析近年来备受关注。针对现有序列聚类算法在对大规模数据进行聚类时,在内存空间和计算时间方面开销较大的问题,提出了基于MapReduce的人工蜂群聚类算法,通过引入MapReduce并行编程范式,快速计算聚类中心适应度,可实现对大规模数据的高效聚类。基于仿真和真实的磁盘驱动器制造两类数据,对算法的聚类效果、可扩展性和聚类效率进行了验证。实验结果表明,与现有PK-Means算法和并行K-PSO算法相比,论文算法具有更好的聚类效果、更强的扩展性和更高的聚类效率。  相似文献   

18.

Community detection (or clustering) in large-scale graphs is an important problem in graph mining. Communities reveal interesting organizational and functional characteristics of a network. Louvain algorithm is an efficient sequential algorithm for community detection. However, such sequential algorithms fail to scale for emerging large-scale data. Scalable parallel algorithms are necessary to process large graph datasets. In this work, we show a comparative analysis of our different parallel implementations of Louvain algorithm. We design parallel algorithms for Louvain method in shared memory and distributed memory settings. Developing distributed memory parallel algorithms is challenging because of inter-process communication and load balancing issues. We incorporate dynamic load balancing in our final algorithm DPLAL (Distributed Parallel Louvain Algorithm with Load-balancing). DPLAL overcomes the performance bottleneck of the previous algorithms and shows around 12-fold speedup scaling to a larger number of processors. We also compare the performance of our algorithm with some other prominent algorithms in the literature and get better or comparable performance . We identify the challenges in developing distributed memory algorithm and provide an optimized solution DPLAL showing performance analysis of the algorithm on large-scale real-world networks from different domains.

  相似文献   

19.
针对遥感数据非结构化、有格式、单景数据量大、记录总量小、大部分处理过程后数据量不显著减少的特点和大规模遥感数据处理的迫切需求,基于已有硬件资源,设计和实现了集中式集群计算的多源定量遥感产品生产系统。系统为解决遥感科学工作者设计开发的算法进行并行计算的问题以及大规模数据管理的需求,设计了基于任务并行的处理系统和面向应用的并行文件系统。系统集成了遥感科学工作者开发的30多种原始数据的预处理算法和50多种多源定量遥感产品生产算法,解决了多源定量遥感产品规模化流程化按需生产的难题,并进行了产品生产,证明了系统在管理和处理大规模遥感数据时的可靠性和有效性。  相似文献   

20.
王海峰 《计算机应用》2012,32(9):2458-2462
研究复杂网络拓扑属性的聚类算法需要处理大量节点和连接边,因此对计算性能要求高,否则无法处理现实中的表示为复杂网络的系统。利用图形处理器(GPU)的并行聚类算法是解决该问题的重要方法。利用原语技术设计并行快速聚类算法,原语法不仅降低并行算法的复杂性而且提高聚类的普适性;再从线程调度策略和缓存管理两个方面提出优化的方法来解决负载均衡和数据重用性问题。通过实验对比并行快速聚类算法与优化算法的性能,结果显示并行快速聚类优化后的算法取得较好加速比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号