期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李俊丽《计算机工程与设计》2021,42(8):2271-2276

针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP.通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时. 相似文献

2.

改进的Spark Shuffle内存分配算法

侯伟凡樊玮张宇翔《计算机应用》2017,37(12):3401-3405

Shuffle性能是影响大数据集群性能的重要指标,Spark自身的Shuffle内存分配算法试图为内存池中的每一个Task平均分配内存,但是在实验中发现,由于各Task对于内存需求的不均衡导致了内存的浪费和运行效率较低的问题。针对上述问题,提出一种改进的Spark Shuffle内存分配算法。该算法根据Task的内存申请量和历史运行数据将Task按内存需求分为大小两类,对小内存需求型Task作"分割化"处理,对大内存需求型Task基于Task溢出次数和溢出后等待时间分配内存。该算法充分利用内存池的空闲内存,可以在数据倾斜导致的Task内存需求不均衡的情况下进行Task内存分配的自适应调节。实验结果表明,改进后算法较原算法降低了Task的溢出率,减少了Task的周转时间,提高了集群的运行性能。相似文献

3.

异构Spark集群数据倾斜修正调度策略

卞琛修位蓉于炯《计算机工程与科学》2022,44(4):620-630

异构Spark集群存在木桶效应,不合理的并行度导致任务分配与工作节点计算能力的适配性较差,进而影响集群计算效率和资源利用率。针对这一问题,首先建立模型,分析数据分布、并行度参数和节点任务分配的耦合关系,提出算法的优化目标,设计异构Spark集群的数据倾斜修正调度策略DSCS,包括并行度预估算法、数据倾斜修正算法和异构节点任务分配算法。预估算法对并行度进行先期设定,数据倾斜修正算法根据首个计算阶段的统计信息进行数据重新划分和并行度修正,由异构节点任务分配算法对集群不同计算能力的工作节点进行合理的任务分配,从而提高数据计算量与节点计算能力的适配性,优化Spark集群的整体性能。实验结果表明：在不同作业类型、不同数据集条件下,算法均取得了一定的性能提升,并能有效减少工作节点外存溢写的概率。相似文献

4.

基于迭代填充的内存计算框架分区映射算法

卞琛于炯修位蓉英昌甜钱育蓉《计算机应用》2017,37(3):647-653

针对内存计算框架Spark在作业Shuffle阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭代填充分区映射算法（IFPM）。首先,分析Spark作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系;然后,根据模型和定义求解,设计扩展式数据分区算法（EPA）和迭代式分区映射算法（IMA）,在Map端建立一对多分区函数,并通过分区函数将部分数据填入扩展区内,在数据分布局部感知后再执行扩展区迭代式的多轮数据分配,根据Reduce端已分配数据量建立适应性的扩展区映射规则,对原生区的数据倾斜进行逐步修正,以此保障数据分配的均衡性。实验结果表明,在不同源数据分布条件下,算法均提高了作业Shuffle过程分区映射合理性,缩减了宽依赖Stage的同步时间,提高了作业执行效率。相似文献

5.

决策树模型预测Spark SQL作业执行时间的方法

吴恩慈《计算机应用与软件》2021,38(4):24-31,123

Spark SQL在超大规模集群和数据集上存在易用性问题,如Catalyst最优执行计划的选择,Shuffle Partition的配置对性能有较大的影响,数据倾斜往往导致集群性能变差。为了在作业执行之前准确预测执行时间,更加充分地使用运行时数据,选择最优执行计划,提出通过决策树及其组合算法的回归模型预测作业执行时间的方法。采用交叉验证方法优化模型超参数,通过剪枝和组合算法优化过度拟合问题,选择相关指标评估机器学习模型预测的准确性。实验表明,梯度提升树回归模型预测作业执行时间的R 2超过0.8,且能够满足在线预测的实时性要求,模型评估指标达到预期效果,相对于线性回归模型的评估指标具有一定的优势。相似文献

6.

Spark内存管理及缓存策略研究

孟红涛余松平刘芳肖侬《计算机科学》2017,44(6):31-35, 74

Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。相似文献

7.

基于Apache Spark的MODIS海表温度反演方法

刘欢陈能成陈泽强《计算机系统应用》2018,27(9):112-117

为应对海量遥感影像快速计算的需求,通过对影像获取、算法和计算过程优化和改进,提出了一种基于Apache Spark并行计算框架的MODIS海表温度反演方法,实现了海量MODIS遥感影像的海表温度快速反演.应用四轮网络查询请求获取特定的时空范围影像数据,提高影像获取阶段的效率;应用简化算法参数、拟合过程变量改进海表温度劈窗算法,使之适合快速并行计算;应用弹性分布式数据集（RDD）窄依赖关系的优点,避免并行计算中的数据交换延迟.通过单机模式与集群模式对比实验,发现集成了并行计算框架的集群模式影像处理效率约为单机模式的10倍.研究结果表明了融合集群计算技术的海表温度反演过程有效提高了传统单机应用程序的处理效率. 相似文献

8.

基于Spark的基因短序列比对模型

冯晓龙高静《计算机仿真》2020,37(2):231-236

针对生物信息分析中基因短序列比对任务计算耗时长的问题,采用Spark平台、RDD数据集以及分布式文件系统HDFS设计了一种分布式计算模型。采用分而治之的策略将庞大的计算任务分割为多个互不重叠的小任务在分布式集群上并行执行。通过基于位置偏移量等分的数据分区算法实现数据的分发;通过将基因短序列封装入RDD数据集的方法实现了短序列的逐条处理;通过将基因比对算法传入RDD的Map函数的方法实现了基因序列的比对。计算模型的实现使得串行比对算法在分布式集群上可扩展,并显著降低了计算耗时,计算结果可与后续的生物信息分析工作相兼容。实验结果证明计算模型具有较好的稳定性和可扩展性,在Spark集群上取得了优秀的加速比。相似文献

9.

基于关键阶段分析的Spark性能预测模型

葛庆宝陶耀东高岑田月孟祥茹《计算机系统应用》2018,27(8):232-236

Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效. 相似文献

10.

基于内存与文件共享机制的Spark I/O性能优化

《计算机工程》2017,(3):1-6

通过对Spark采用的弹性分布式数据集及任务调度等关键技术进行分析,发现数据处理I/O时间是影响Spark计算性能的主要瓶颈。为此,研究Spark合并文件运行模式,该模式能够减少缓存文件数量,提高Spark的I/O效率,但存在内存开销较高的缺点。在此基础上,给出改进的Spark Shuffle过程,即通过设计一种使每个Mapper只生成一个缓存文件的运行模式,并且每个Mapper共享同一个内存缓冲区,从而提高I/O效率和减少内存开销。仿真结果表明,与Spark默认模式相比,该运行模式宽依赖计算过程的I/O时间缩短42.9%,可有效提高内存利用率和Spark平台运算效率。相似文献

11.

基于 Spark 的大规模网络流量准实时分类方法

杨晨光马永征《数据与计算发展前沿》2016,7(2):25-34

大数据时代催生了互联网流量的指数级增长,为了有效地管控网络资源,提高网络安全性,需要对网络流量进行快速、准确的分类,这就对流量分类技术的实时性提出了更高的要求。目前,国内外的网络流量分类研究大多是在单机环境下进行的,计算资源有限,难以应对高速网络中的 (准) 实时流量分类任务。本文在充分借鉴已有研究成果的基础上,吸收当前最新的思想和技术,基于Spark 平台,有机结合其流处理框架 Spark Streaming 与机器学习算法库 MLlib,提出一种大规模网络流量准实时分类方法。实验结果表明,该方法在保证高分类准确率的同时,也具有很好的实时分类能力,可以满足实际网络中流量分类任务的实时性需求。相似文献

12.

Spark任务间消息传递方法研究

下载免费PDF全文

夏立斌刘晓宇孙玮姜晓巍孙功星《计算机工程与应用》2022,58(21):91-97

当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现。针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式。通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统。测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升。相似文献

13.

基于Spark的分布式大数据机器学习算法

王芮韩锐贾玉祥《计算机与现代化》2018,(11):119

对于大数据而言,机器学习技术是不可或缺的;对于机器学习而言,大规模的数据可以提升模型的精准度。然而复杂的机器学习算法从时间和性能上都急需分布式内存计算这种关键技术。Spark分布式内存计算可以实现算法的并行操作,有利于机器学习算法处理大数据集。因此本文提出在Spark分布式内存环境下实现非线性机器学习算法,其中包括多层可变神经网络、BPPGD SVM、K-means,并在实现的基础上进行数据压缩、数据偏向抽样或者数据加载等方面的优化。为了实现充分配置资源批量运行脚本,本文也实现SparkML调度框架来调度以上优化算法。实验结果表明,优化后的3种算法平均误差降低了40%,平均时间缩短了90%。相似文献

14.

基于Spark的ItemBased推荐算法性能优化

廖彬张陶国冰磊于炯张旭光刘炎《计算机应用》2017,37(7):1900-1905

MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高ItemBased推荐算法的计算效率,首先对MapReduce平台下ItemBased协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的ItemBased推荐算法。实验结果表明：当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。相似文献

15.

基于Spark的电网工控系统流量异常检测平台

张艳升李喜旺李锦程《计算机系统应用》2019,28(8):46-52

针对传统的电力网络流量检测安全预警系统在面对海量高维度数据时，其在精度、实时性、扩展性以及效率上都无法满足需求的问题，建立出一种基于Spark的电网工控系统流量异常检测平台.该平台以Spark为计算框架，主要由数据采集与网络流量深度包检测协议解析模块，实时计算数据分析处理模块，安全预警预测模块和数据存储模块组成，为流量异常检测提出了一套完整的流程.实验结果表明，该平台能够有效地检测出异常流量，做出安全预警，方便工作人员及时做出决策，这充分说明该平台非常适用于电力控制系统，能够应对海量高维复杂数据做出实时分析以及安全预警，极大地提高了电网工控系统的安全性能. 相似文献

16.

基于Spark框架的乘潮水位计算与可视化平台

秦勃朱勇秦雪《计算机工程与科学》2015,37(12):2216-2221

乘潮水位计算是海洋环境信息处理的重要组成部分,具有计算量大、计算复杂度高、计算时间长等特性。采用传统集群计算模式实现乘潮水位计算业务,存在计算成本高、计算伸缩性和交互性差的问题。针对以上问题,提出一种基于Spark框架的乘潮水位计算和可视化平台。结合对Spark任务调度算法的研究,设计和实现了一种基于节点计算能力的任务调度算法,实现了长时间序列的多任务乘潮水位数据的检索、获取、数值计算、特征可视化的并行处理,达到了海量海洋环境数据计算和可视化处理的目的。实验结果表明,提出的基于Spark的乘潮水位计算和可视化平台可以有效地提高海量乘潮水位数据的分布式并行处理的效率,为更加快速和高效的乘潮水位计算提供了一种新的方法。相似文献

17.

Spark平台下类别数据互信息计算的并行化

下载免费PDF全文

李俊丽《计算机工程与应用》2021,57(7):95-100

针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证了算法。实验结果表明,该算法在效率、可伸缩性和可扩展性等方面都达到了较高的性能。相似文献

18.

Spark环境下并行立方体计算方法

萨初日拉周国亮时磊王刘旺石鑫朱永利《计算机应用》2016,36(2):348-352

针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。相似文献

19.

基于Spark框架的改进协同过滤算法

邹红旭潘冠华李吟《计算机技术与发展》2020,(5):38-42

随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据。利用Spark平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用Spark提供的RDD(resilient distributed dataset)算子完成算法的设计。针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度。为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的Hash_join函数替代Spark自带的连接操作算子,提高了计算效率。采用UCI的公用数据集MovieLens对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现。相似文献