首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 77 毫秒
1.
在处理海量数据集时,由于单台计算机的处理能力有限,利用传统的聚类算法难以在有效的时间内获得聚类结果。在基于密度和自适应密度可达聚类算法的基础上,提出一种并行聚类算法。理论和实验结果证明该算法具有接近线性的加速比,能够有效地处理大规模的数据集。  相似文献   

2.
并行程序由于自身的复杂性使得并行程序的调试相比串行程序要困难的多,因此用可视化的性能分析工具来辅助并行程序的调试显得非常重要,以此来帮助程序员找到程序的性能瓶颈,为并行程序的优化提供指导和建议。本文在研究MPE性能分析机理的基础上,介绍了一种实用的MPI并行程序可视化性能分析方法,并用实例详细说明了并行程序实时可视化性能分析和事后可视化性能分析过程。  相似文献   

3.
针对微阵列基因表达数据聚类的高维复杂性,提出了一种基于密度的并行聚类算法,在APRAM模型的分布式存储系统中,通过欧几里德距离矩阵和密度函数两次时间复杂度为O(■)的计算,可使聚类过程的时间复杂度为O(■),以增加一次计算的代价来降低聚类过程的时间复杂度。基于8结点的机群计算实验表明:本算法能够达到较同类算法更高的并行加速比,提高高维生物数据的聚类速度。  相似文献   

4.
胡长军  张素琴  田金兰 《计算机学报》2003,26(12):1671-1677
多范例并行是大规模并行应用系统的本质特征.规范化描述并行应用系统,建立性能估算模型对于提高多范例并行应用系统的开发效率和运行效率具有重要意义.该文提出了一种基于模块及其组合关系的描述方法和系统执行代价计算模型,它不仅能描述并行应用系统的多范例特征,而且将不同并行范例模块的组合时产生的代价引入模型.考虑的代价包括并行执行模式的转换、数据分布方式的转换以及编程范例的转换等,从而使模型更为准确.给出了描述和代价估算的应用实例,说明了规范化描述和代价估算对于确定并行策略的重要性以及模型的精确性.  相似文献   

5.
为了使海量商务数据得到高效、稳定、安全的处理,提出了一种针对基于并行数据流技术的海量数据管理系统,详细探讨了该系统中并行数据加载模块和并行数据查询模块的关键技术及具体体系结构,并对其中的并行查询技术提出相关的优化方案。  相似文献   

6.
CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比.  相似文献   

7.
8.
集群环境下的并行聚类算法   总被引:8,自引:0,他引:8  
探讨在集群环境下,如何设计并行聚类算法。作为一种低成本、通用并行系统,集群系统的通信能力,相对于节点的计算能力,是一个瓶颈。所以在集群环境下,设计并行聚类算法时,应采用数据并行的思想。从理论上,对采用数据并行思想后,影响聚类算法的加速比和聚类质量的因素进行了分析,然后通过一个验证算法PCIT(Parallel clustering algorithm based on Index Tree)证实了理论分析的正确性。研究结果可以为以后设计更好的数据并行聚类算法提供理论依据。  相似文献   

9.
针对大量异构数据下企业员工潜在行为规律挖掘问题,提出一种基于均值聚类的行为分析方法。以某科研院所员工行为数据为基础,建立行为分析模型,对企业员工门禁刷卡数据和专业日常办公软件数据进行行为特征提取和选择,采用K-Means聚类分析方式分析行为特征。最终从工作态度上,大致可以将员工分为勤奋型、散漫性和普通型;从岗位特征上,大致可以将员工分为普通类、专业类和管理类。并且通过对聚类结果分析,挖掘出员工一些隐藏的行为特征规律。通过对现场相关人员调研,并结合员工真实工作性质、岗位特点,验证了在此场景下应用员工行为所产生的数据,结合聚类算法,在企业员工行为分析方面可以取得较理想的效果。  相似文献   

10.
大规模问题数据并行性能的分析   总被引:6,自引:0,他引:6  
从应用的角度建立了评价大规模问题数据并行处理性能的模型,分析了区域的不同划分对解整个问题算法的收敛速度有影响时的并行性能,进而就操作重叠、数据规模以及算法选取等几个方面的问题对大规模数据并行性能所产生的影响进行了分析.最后,给出的例子证明了模型的有效性.  相似文献   

11.
In this article we present a new parallel programming environment, called distributed object-oriented virtual computing environment (DOVE), for clustered computers based on distributed object model. In DOVE, a parallel program is built as a collection of concurrent objects each of which has its own computing power and which interacts with one another by remote method invocation. The parallelism is encapsulated within distributed objects, which can be handled the same way as local objects. The main goal of DOVE is to provide users with an easy-to-use transparent parallel programming environment while supporting efficient parallelism encapsulated and distributed among objects. For the experiment and evaluation of DOVE, two parallel application programs have been developed both on DOVE and PVM.  相似文献   

12.
为满足大规模空间数据库的聚类需求,面向计算机集群,提出一种基于密度的并行聚类算法。该算法根据数据库分布特征进行数据分区,在每一个节点上对数据块并行聚类,在主节点上合并聚类结果。实验结果表明,该算法的计算速度随着节点数的增多呈线性增加,具有较好的延展性。  相似文献   

13.
In this paper, an exhaustive parallel library of sparse iterative methods and preconditioners in HPF and MPI was developed, and a model for predicting the performance of these codes is presented. This model can be used both by users and by library developers to optimize the efficiency of the codes, as well as to simplify their use. The information offered by this model combines theoretical features of the methods and preconditioners in addition to certain practical considerations and predictions about aspects of the performance of their execution in distributed memory multiprocessors.  相似文献   

14.
时空一体化的海量数据管理及相应的时序分析能力是新一代GIS软件体系的重要研究目标之一。当前,基于无缝海量大表的空间及时态空间数据的存取效率亟待提高。为了对海量时空数据进行有效管理和提高时空检索效率,以扩充关系型时空模型为基础,对大型对象一关系型数据库平台所提供的数据分区与聚簇方法进行了时空维的扩展,提出了基于时空分区聚簇(spatio-temporal partition clustering,STPC)的海量时空数据性能优化方法。基于2GB~60GB的单表所进行的检索效率对比测试结果表明,STPC机制较普通的数据组织方式时空检索效率平均提高了10.1%。  相似文献   

15.
传统的搜索引擎性能评价方法需要人工标注标准答案集,需花费大量的人力物力,并且评价结果依赖于人工标注的准确性,效率较低。该文基于聚类分析的思路,提出了一种搜索引擎性能评价指标和自动进行搜索引擎性能评价的方法,此方法能自动计算信息类查询的覆盖范围,并根据其覆盖范围对检索结果进行聚类,通过类间距和类内距等指标实现检索性能的自动评价。实验结果表明,基于聚类指标的评价方法与人工标注的评价方法的评价结果是相一致的。  相似文献   

16.
结合实时图象处理和多DSP系统并行处理的特点,分析了以ADSP14060(SHARC)DSP构成的Grid型多处理器系统的结构,讨论了该多DSP并行计算系统的性能,并针对多种目标识别算法进行了实验,结果表明该系统具有灵活的、可依据实际需要的并行结构进行重构的特点,能够满足实时图像识别系统的需要。  相似文献   

17.
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用k-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下有效降低了聚类的花费时长,提高了算法的聚类性能,证明该数据集压缩算法在聚类分析中的有效性与可靠性。  相似文献   

18.
基于混合并行遗传算法的文本聚类研究   总被引:2,自引:0,他引:2  
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号