首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
吴磊  陈鹏 《计算机应用》2005,25(9):1989-1991
研究了采用并行算法挖掘关联规则的优化方案。在数据分发(DD)算法的基础上引入了改进的智能数据分发(IDD)算法;之后提出采用混和分发(HD)算法,该算法综合了计数分发(CD)和IDD算法的优点,简单而有效地解决了算法中非常重要的候选项目集在各个处理器节点之间的划分问题,尽可能使得各个节点负载平衡。最后,对IDD和HD算法的复杂度给出了较为详细的分析。  相似文献   

2.
发现关联规则是数据挖掘的一个重要的任务.简要介绍了几种发现关联规则的串行算法和并行算法,并针对IDD和HD这两种效率和可扩展性较好的算法,引入在线LPT调度算法,有效地解决了IDD和HD算法中非常重要的候选项目集在各个处理器节点之间的划分问题,尽可能使得各个节点负载平衡,从而提高算法的效率.  相似文献   

3.
基于Hadoop分布式计算平台,给出一种适用于大数据集的并行挖掘算法。该算法对非结构化的原始大数据集以及中间结果文件进行垂直划分以确保能够获得完整的频繁项集,将各个垂直分块数据分配给不同的Hadoop计算节点进行处理,以减少各个计算节点的存储数据,进而减少各个计算节点执行交集操作的次数,提高并行挖掘效率。实验结果表明,给出的并行挖掘算法解决了大数据集挖掘过程中产生的大量数据通信、中间数据以及执行大量交集操作的问题,算法高效、可扩展。  相似文献   

4.
基于聚类划分的高效用模式并行挖掘算法   总被引:4,自引:0,他引:4  
针对在大规模数据库中挖掘高效用模式产生大量基于内存的效用模式树,从而导致内存空间占用较大以及丢失一些高效用项集的问题,提出在Hadoop分布式计算平台下的基于聚类划分的高效用模式并行挖掘算法PUCP。首先,采用聚类的方法把数据库中相似的事务划分为若干数据子集;然后,把若干划分好的数据子集分配到Hadoop平台的各个节点中构造效用模式树;最后,把各个节点中相同项的条件模式基分配到同一个节点中进行挖掘,以减少各个节点交叉操作的次数。通过实验结果和理论分析表明:PUCP算法在不影响挖掘结果可靠性的前提下,与主流串行高效用模式挖掘——效用模式增长挖掘算法(UP-Growth)和现有的并行高效用模式挖掘算法PHUI-Growth相比,挖掘效率分别提高了61.2%和16.6%;并且使用了Hadoop计算平台,能有效缓解挖掘大规模数据的内存压力。  相似文献   

5.
陈涛  张玮 《微机发展》2007,17(1):139-141
在研究关联规则挖掘算法的基础上,对并行关联规则算法进行了比较全面的分析,并给出了并行数据挖掘的计算框架。提出了一个以计算服务器为中心节点的并行挖掘算法,可以发挥各局部节点的优势,无需各局部节点进行通信,减少了各局部节点的通信负荷。通过理论分析和实验数据验证,该算法具有较好的可扩展性和海量处理能力,特别是在节点数目较多的情况下更显示出优势。  相似文献   

6.
在研究关联规则挖掘算法的基础上,对并行关联规则算法进行了比较全面的分析.井给出了并行数据挖掘的计算框架。提出了一个以计算服务器为中心节点的并行挖掘算法,可以发挥各局部节点的优势,无需各局部节点进行通信,减少了各局部节点的通信负荷。通过理论分析和实验数据验证,该算法具有较好的可扩展性和海量处理能力,特别是在节点数目较多的情况下更显示出优势。  相似文献   

7.
针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,提出了基于Map/Reduce计算模型的并行挖掘算法--MREclat。首先,将水平型数据库转换成垂直型数据库;然后,将转换后的数据按2-项集的前缀分发到各个计算节点上,且在分发数据时引入了均衡策略;接着,在各个计算节点上求出以某一前缀开头的所有频繁项目集;最后,合并各个节点的结果得到所有频繁项目集。介绍了MREclat的设计思想,研究了算法的运行性能。实验结果表明,MREclat算法效率大约是PEclat算法的2倍,加速比性能比PEclat算法提高了64%。  相似文献   

8.
基于HMT和哈希树的Apriori并行算法研究   总被引:1,自引:0,他引:1  
为了进一步提高基于HMT和哈希树的Apriori算法的性能,提出了一种基于独立内存并行环境的并行化方案,充分利用空闲的计算资源来提高关联规则数据挖掘的效率.将原始数据集平均分配到并行环境中的各个子计算节点中,在各个子计算节点中并行地进行关联规则支持度计数,并从各个子计算节点中收集合并支持度计数的结果,得到目标频繁项集,进而实现Apriori算法的并行化.实验结果表明,该并行化方案可以很好地提高原算法的效率.  相似文献   

9.
关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避免全局FP-tree可能过大而内存无法容纳的问题,算法在各个主要步骤上都实现了并行处理。算法测试结果和分析表明,与传统的关联规则挖掘算法FP-Growth相比,该算法通过多节点分布式并行处理显著提高了执行效率和处理能力。  相似文献   

10.
基于曙光4000A的BLAST并行算法   总被引:1,自引:0,他引:1  
对BLAST启发式算法的实现做了优化:引入批处理的概念、并对整个库文件建立哈希表,实现了I/O延迟掩藏,提高了整个比对过程的速度,同时降低了内存消耗。优化的算法有利于并行化的实现:在并行系统中,将库文件广播到各个计算节点,由节点在局部分别建立哈希表。然后将查询文件分割发送到各个计算节点并行比对。计算结果可以在节点直接输出,不需要主结点收集,减少了通信开销。  相似文献   

11.
Scalable parallel data mining for association rules   总被引:3,自引:0,他引:3  
The authors propose two new parallel formulations of the Apriori algorithm (R. Agrawal and R. Srikant, 1994) that is used for computing association rules. These new formulations, IDD and HD, address the shortcomings of two previously proposed parallel formulations CD and DD. Unlike the CD algorithm, the IDD algorithm partitions the candidate set intelligently among processors to efficiently parallelize the step of building the hash tree. The IDD algorithm also eliminates the redundant work inherent in DD, and requires substantially smaller communication overhead than DD. But IDD suffers from the added cost due to communication of transactions among processors. HD is a hybrid algorithm that combines the advantages of CD and DD. Experimental results on a 128-processor Cray T3E show that HD scales just as well as the CD algorithm with respect to the number of transactions, and scales as well as IDD with respect to increasing candidate set size  相似文献   

12.
The majority of the scheduling studies carry a common assumption that machines are available all the time. However, machines may not always be available in the scheduling period due to breakdown or preventive maintenance. Taking preventive maintenance activity into consideration, we dealt with the two-machine flowshop scheduling problem with makespan objective. The preventive maintenance policy in this paper was dependent on the number of finished jobs. The integer programming model was proposed. We combined two recent constructive heuristics, HI algorithm and H algorithm, with Johnson’s algorithm, and named the combined heuristic H&J algorithm. We also developed a constructive heuristic, HD, with time complexities O(n2). Based on the difference in job processing times on two machines, both H&J and HD showed good performance, and the latter was slightly better. The HD algorithm was able to obtain the optimality in 98.88% of cases. We also employed the branch and bound (B&B) algorithm to obtain the optimum. With a good upper bound and a modified lower bound, the proposed B&B algorithm performed significantly effectively.  相似文献   

13.
在大规模的Hadoop集群中,良好的任务调度策略对提高数据本地性、减小网络传输开销、减少作业执行时间以及提高集群的作业吞吐量都有着重要的影响。本文针对Hadoop架构中Reduce任务的数据本地性较低问题,提出了一种基于延迟调度策略的Reduce任务调度优化算法,通过提高Reduce任务的数据本地性来减少作业执行时间以及提高作业吞吐量,该算法在Hadoop架构的Early Shuffle阶段,使用多级延迟调度策略来提高Reduce任务的数据本地性。最后重写原生公平调度器代码实现了该调度算法,并与原生公平调度器进行了对比实验分析,实验结果表明该算法明显减少了作业执行时间,提高了集群的作业吞吐量。  相似文献   

14.
在现代处理器中,存储控制器是处理器芯片对片外存储器进行访问的管理者和执行者,其中对访存过程的调度算法会对实际访存性能产生十分重要的影响。针对已有调度算法在不同负载特征下自适应性不足的问题,提出了一种基于强化学习方法的ALHS算法,通过对访存调度中页命中优先时的连续页命中上限次数进行自适应调整,习得最优策略。多种不同典型访存模式的模拟结果显示,相比传统的FR-FCFS,ALHS算法运行速度平均提升了10.98%,并且可以获得近似于最优策略的性能提升,表明该算法能够自主探索环境并自我优化。  相似文献   

15.
面向多应用环境RAID系统的智能预取和缓存调度   总被引:4,自引:0,他引:4       下载免费PDF全文
本文分析了RAID系统的多应用环境数据请求的存储模式的特点,提出了能根据应用环境的不同而自动改变预取策略的智能预取算法以及缓存调度算法。实践证明,本算法使得RAID系统的预取和缓存调度摆脱了盲目性,保证了预取策略和缓存调度的最优性。  相似文献   

16.
Codelet数据流计算模型在处理大规模并行计算任务时效果显著,但该模型目前缺少在异构多核环境中的任务调度策略。因此,提出了一种在异构多核环境下基于蚁群算法的Codelet任务调度策略。该调度策略将启发式算法与蚁群算法相融合,在发挥各自优势的同时克服了启发式算法不能得出最优解的缺陷以及蚁群算法初始信息匮乏的问题。实验结果表明,智能蚁群任务调度策略相比Codelet运行时系统中原生的动态调度和静态调度策略具有更高的执行效率。  相似文献   

17.
基于遗传算法的自适应网格任务调度方法   总被引:7,自引:0,他引:7  
文章提出了一种以资源代理为基础的任务调度方法—GMBSA,该方法先对任务执行时间进行预测,然后运用遗传算法结合多队列Backfilling方法进行任务调度,达到最小化任务执行时间(MinimumExecutionTime)的要求,最终实现网格资源的优化分配。试验中采用Simgrid任务调度模拟器对GMBSA的性能进行了测试,并比较了轻重负载情况下GMBSA,多队列Backfilling和FCFS三种调度方案的性能差异。  相似文献   

18.
分布式实时系统具有动态性、分布性等特征,为了使其具有较好的执行效率,需要一种有效的调度算法来进行任务的调度。本文在采用多队列调度策略的基础上,对一些有安全级别限制的系统,设计一种支持队列公平和安全策略的多队列调度算法。最后,给出该算法在网格模拟器上的测试结果,并与一些算法进行比较。结果表明,本算法在大任务量情况下,满足安全性要求,较好地实现队列公平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号