期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宋双洋赵姗杨秋松《计算机系统应用》2017,26(10):36-43

作为提高CPU读取和存储数据的效率,弥补与主存之间存取速度差距的有效策略,CPU的缓存（Cache）充分利用其对数据使用的局部性原理,对最近或最常使用的数据进行暂存,对CPU的性能起着决定性作用.缓存的微架构正是决定缓存性能的关键性因素.然而,现代先进的CPU缓存都具备极为复杂的结构,存在多种策略、多种硬件算法和多个层级等不同维度的设计,从硬件上直接设计和论证不仅耗时而且成本很高,Cache微架构模拟器正是用软件方法对硬件微架构进行模拟和仿真.设计一款结构优良的缓存,对不同微架构进行评估,是一件具有深远意义的工作.本文从硬件结构出发,设计实现了一款多级、高可配、高可扩展的缓存微架构功能模拟器CMFSim（Cache microarchitecture functional simulator）,实现了常见的缓存策略和硬件算法,可以进行给定配置下的缓存功能的模拟,从而分析配置参数与缓存性能间的关系. 相似文献

2.

Spark任务间消息传递方法研究

下载免费PDF全文

夏立斌刘晓宇孙玮姜晓巍孙功星《计算机工程与应用》2022,58(21):91-97

当今诸多工程问题及科学研究中,都面临着大数据处理和高性能计算任务的双重挑战。基于内存计算技术提出的分布式处理框架Spark已在学术和工业界得到了广泛的应用,但其MapReduce-like的编程模型在任务间无法进行通信,导致科学计算中的数值算法无法进行高效实现。针对上述问题,研究了一种Spark内存计算与MPI消息传递模型相结合的解决方案,充分利用内存访问存取快速的特点和MPI的多种高性能通信机制,解决了Spark编程模型表达能力不足的缺陷,同时为MPI提供了面向数据的DAG计算方式。通过对Spark内部的运行环境和调度系统进行修改,使得MPI在Spark中得以无缝融合,为高性能计算和大数据任务提供了一个统一的内存计算系统。测试结果表明,在数值计算和迭代算法上相比Spark至少有50%的性能提升。相似文献

3.

基于Spark的倾斜数据虚拟划分算法

李俊丽《计算机工程与设计》2021,42(8):2271-2276

针对基于Spark的类别数据互信息的并行计算在数据倾斜情况下会造成某一个或几个reducer负载过重降低集群性能的现状,重新定义数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,提出数据虚拟划分算法DVP.通过将同一个键添加随机前缀更改为几个不同的键,减少单个任务处理过量数据的情况;在一个24节点的Spark集群中实现DVP算法,通过与Spark传统的哈希算法DEFH比较,实验验证了DVP算法减轻了Spark Shuffle过程中的数据倾斜,减少了在负载均衡方面的耗时. 相似文献

4.

基于GPU的HPGB+-Tree索引

刘军冷芳玲李宇轩《计算机与数字工程》2021,49(12):2490-2495

索引作为加速数据库查询的一种成熟技术,始终受限于CPU的内存带宽与架构的发展,因此无法在性能上实现质的飞跃.所以使用GPU赋能索引技术来辅助数据库执行查询任务是势在必行的.因此,针对异构环境下索引结构的适应性以及现有GPU索引受限于显存容量导致扩展性不够等问题,提出了一种CPU与GPU协同处理的HPGB+-Tree索引算法.该算法以混合架构的方式重新构建索引结构,使其完全适应GPU的硬件特性,突破CPU内存带宽受限和GPU内存容量受限的双重难关.HPGB+-Tree索引不仅解决了索引异构问题,还充分利用两大硬件平台各自的优势加速基于索引的相关操作.在不同数据量与不同任务规模下对算法的性能进行了评估,实验结果表明,该算法在内核占用率与程序执行速度两个方面都极具优势,在性能上处于领先地位. 相似文献

5.

广播机制解决Shuffle过程数据倾斜的方法

下载免费PDF全文

吴恩慈《计算机系统应用》2019,28(6):189-197

在Spark计算平台中，数据倾斜往往导致某些节点承受更大的网络流量和计算压力，给集群的CPU、内存、磁盘和流量带来了巨大的负担，影响整个集群的计算性能.本文通过对Spark Shuffle设计和算法实现的研究，深入分析在大规模分布式环境下发生数据倾斜的本质原因.提出了广播机制避免Shuffle过程数据倾斜的方法，分析了广播变量分发逻辑过程，给出广播变量性能优势分析和该方法的算法实现.通过Broadcast Join实验验证了该方法在性能上有稳定的提升. 相似文献

6.

基于Spark SQL结构化数据文件的推荐系统性能优化研究

胡晶《电脑与信息技术》2021,29(5):61-63

Spark SQL是Spark技术的一个模块,在不使用Scala语言的前提下,可以对结构化数据进行处理和优化.本文重点研究Spark SQL的架构、DateFrame数据抽象、基于数据分类的改进交替最小二乘算法(ALS)等几个方面,研究在推荐系统中处理结构化数据面临的性能优化问题研究.提出最小二乘算法对Spark SQL的Dateset进行优化,在操作Hive数据集和HBase分布式数据的过程中,整合二者的优点,改进了数据读写速度,优化了数据组织框架.在推荐系统进行结构化文件处理的问题上,具有一定的指导意义. 相似文献

7.

基于Hadoop和Spark的可扩展性大数据分析系统设计

刘昕林邓巍黄萍刘睿臻《自动化与仪器仪表》2020,(3):132-136

随着社会进步和信息化高速发展,网络数据规模大幅度扩大,面对大规模网络数据环境,基于Hadoop和Spark设计可拓展性大数据分析系统。系统Flume模块的Source组件负责采集大数据,Sink组件将大数据传输至Kafka;分析检测模块采用Spark离线训练可扩展性数据,将训练完成的模型传输到Spark streaming中,依据训练模型特征对普通大数据分类,获取可扩展性大数据。系统软件采用ALS算法、PageRank算法得到可扩展性大数据的有效性与价值度排名,据此向用户推荐优质可扩展性大数据。实验结果显示:系统分析可拓展性大数据精准度高于90%,优于对比系统,且具备低能耗、高稳定性的优点,实际应用价值高。相似文献

8.

数据融合仿真系统通用架构及关键技术研究

齐崇英王艺韩颖《计算机工程与设计》2012,33(2):705-710

在构建数据融合仿真系统通用架构的基础上,介绍了系统主要功能和仿真流程;研究了数据融合模块设计、效能评估指标体系、效能评估数学模型等仿真系统实现的关键技术,从数据融合算法设计及系统软件开发两个方面,提出了数据融合仿真系统通用架构开发实现的基本思路和方法.该系统不但可用来研究评价不同数据融合模型、算法的性能,而且可用来评估数据融合系统的整体性能,对实际系统实现也有相当的借鉴作用. 相似文献

9.

CPU/FPGA混合架构上的硬件线程加速方法

陈天洲严力科胡威马吉军《软件学报》2009,20(Z1):15-22

CPU/FPGA混合架构是可重构计算的普遍结构,为了简化混合架构上FPGA的使用,提出了一种硬件线程方法,并设计了硬件线程的执行机制,以硬件线程的方式使用可重构资源.同时,软硬件线程可以通过共享数据存储方式进行多线程并行执行,将程序中计算密集部分以FPGA上的硬件线程方式执行,而控制密集部分则以CPU上的软件线程方式执行.在Simics仿真软件模拟的混合架构平台上,对DES,MD5SUM和归并排序算法进行软硬件多线程改造后的实验结果表明,平均执行加速比达到了2.30,有效地发挥了CPU/FPGA混合架构的计算性能. 相似文献

10.

基于GPU的卷积检测模型加速

《计算机应用与软件》2016,(5)

近年来,形变部件模型和卷积神经网络等卷积检测模型在计算机视觉领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和评估过程中卷积运算巨大的计算开销,也限制了其在诸多实际场景中进一步的应用。利用数学理论和并行技术对卷积检测模型进行算法和硬件的双重加速。在算法层面,通过将空间域中的卷积运算转换为频率域中的点乘运算来降低计算复杂度;而在硬件层面,利用GPU并行技术可以进一步减少计算时间。在PASCAL VOC数据集上的实验结果表明,相对于多核CPU,该算法能够实现在单个商用GPU上加速卷积过程2.13~4.31倍。相似文献

11.

基于指令级并行的倒排索引压缩算法

闫宏飞张旭东单栋栋毛先领赵鑫《计算机研究与发展》2015,52(5)

文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17％.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 相似文献

12.

主流卷积神经网络的硬件设计与性能分析

徐青青安虹武铮金旭《计算机系统应用》2020,29(2):49-57

作为深度学习领域中最具有影响力的网络结构之一,卷积神经网络朝着更深更复杂的方向发展,对硬件计算能力提出了更高的要求,随之出现了神经网络专用处理器.为了对这类处理器进行客观比较,并指导软硬件优化设计,本文针对卷积神经网络提出了宏基准测试程序和微基准测试程序.其中,宏基准测试程序包含主流的卷积神经网络模型,用于处理器性能的多方位评估和对比;微基准测试程序包含卷积神经网络中的核心网络层,用于细粒度定位性能瓶颈并指导优化.为了准确描述这套基准测试程序在真实硬件平台上的性能表现,本文选取了I/O等待延迟、跨节点通信延迟和CPU利用率3大系统性能评测指标以及IPC、分支预测、资源竞争和访存表现等微架构性能评测指标.基于评测结果,本文为处理器的硬件设计与架构改进提出了可靠建议. 相似文献

13.

MapReduce与Spark用于大数据分析之比较 总被引：2，自引：0，他引：2

吴信东嵇圣硙《软件学报》2018,29(6):1770-1791

随着大数据时代的到来,海量数据的分析与处理已成为一个关键的计算问题.本文评述了MapReduce与Spark两种大数据计算算法和架构,从背景、原理以及应用场景进行分析和比较,并对两种算法各自优点以及相应的限制做出了总结.当处理非迭代问题时,MapReduce凭借其自身的任务调度策略和shuffle机制,在中间数据传输数量以及文件数目方面性能要优于Spark;而在处理迭代问题和一些低延迟问题时,Spark可以根据数据之间的依赖关系对任务进行更合理的划分,相较于MapReduce有效地减少中间数据传输数量与同步次数,提高系统的运行效率. 相似文献

14.

基于关键阶段分析的Spark性能预测模型

葛庆宝陶耀东高岑田月孟祥茹《计算机系统应用》2018,27(8):232-236

Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用.性能预测是集群资源分配优化的基础和关键,本文正是基于此提出了一种Spark性能预测模型.文中选取作业执行时间作为Spark性能衡量指标,提出了Spark作业关键阶段的概念,通过运行小批量数据集来获取关键阶段的运行时间和作业输入数据量之间关系,从而构建了Spark性能预测模型.实验结果表明该模型较为有效. 相似文献

15.

异构计算平台图像边缘检测算法优化研究

《计算机工程》2017,(5):240-247

随着实际应用中图像数据规模的增大和分辨率的提高,图像边缘检测算法的性能成为制约图像实时处理的关键。从向量化访存、数据本地化以及条件分支优化3个方面出发,结合算法特性和底层硬件架构特征,研究Canny边缘检测算法在NVIDIA Tegra K1异构计算平台上的GPU性能优化。实验结果表明,与基于Open CV3.0CPU的Canny边缘检测算法相比,优化后的Canny边缘检测算法在不同图像数据规模下可达13.2倍~17.8倍的性能加速比,具有较好的检测性能。相似文献

16.

Spark环境下并行立方体计算方法

萨初日拉周国亮时磊王刘旺石鑫朱永利《计算机应用》2016,36(2):348-352

针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。相似文献

17.

基于Matlab的遗留系统并行化重构方法

樊峰峰张延园林奕《计算机与现代化》2012,(5):23-26

随着CPU多核架构的普及,应用的复杂和数据集的膨胀,基于Matlab的遗留系统中的串行程序代码无法充分发挥系统潜在的性能优势,无力应对当前大型数据集的处理应用需求。Matlab的并行计算模型为数据密集型的处理任务提供了并行支持。本文首先从系统架构扩展和业务代码并行化入手,分析遗留系统并行化重构过程要点和方法,应用案例的并行化重构实验数据表明了系统重构处理大型数据集的性能提升。相似文献

18.

基于Spark并行化改进混合地点推荐

蒲鑫孟祥茹高岑王美吉刘锦扬《计算机系统应用》2019,28(10):86-91

推荐算法是数据挖掘中最重要的算法之一.地点推荐是推荐系统的重要研究内容.针对目前地点推荐面临的数据稀疏、冷启动、个性化程度低等问题,设计并实现了基于Spark并行化处理的改进混合地点推荐模型.该算法融合了基于内容的推荐和基于协同过滤的推荐,结合了用户当前的偏好和其他用户的意见.使用基于用户-地点属性偏好的矩阵填充方式,以此改善数据稀疏性问题;同时,对于海量数据,系统采用Spark分布式集群实现并行计算,缩短了模型训练时间.实验结果表明,与其他推荐算法相比,该算法能有效改善数据稀疏性、提升推荐效果. 相似文献

19.

基于脉动阵列的层融合注意力模型加速器结构

刘晓航姜晶菲许金伟《计算机工程与科学》2023,(5):802-809

注意力机制最近在深度神经网络中表现出优越的性能，但其计算包含复杂的数据流，内存开销和计算量大，需要定制加速器来优化推理计算。提出一种针对注意力机制计算的加速器结构。采用基于硬件控制的灵活分块方法，将模型中的巨大矩阵分成硬件亲和的计算块，使块矩阵的计算匹配加速器脉动阵列；提出基于双步softmax函数分解计算的层融合计算方法，有效减少了注意力模型计算对内存的访问。采用硬件描述语言HDL设计实现了细粒度计算调度的层融合注意力模型加速器结构。基于XILINX FPGA器件和HLS工具进行了性能评估。相同设置下，与CPU相比延迟加速了4.9倍，与GPU相比能效提升了1.24倍。相似文献

20.

基于Apache Spark的地震观测数据噪声功率谱计算

郭凯黎建辉温亮明韩振华《计算机系统应用》2021,30(8):126-132

为解决单机环境下海量地震观测数据计算和分析效率低下的问题,提出一种基于分布式架构的地震观测数据的存储、计算和分析处理方法,选择噪声功率谱复杂计算过程的应用场景进行实现.基于Hadoop在海量数据处理上的性能优势,在分布式文件存储系统HDFS上进行地震观测数据的存储和调度,研究测震数据噪声功率谱的质量评估方法在Spark分布式计算架构上的实现,采用弹性数据集Spark RDD将计算任务自动分配到计算节点,解析存储在HDFS中的测震波形数据,计算结果采用RowKey方式放入分布式数据库HBase中,实现了长周期地震噪声功率谱结果的存储和提取.计算结果表明,基于Spark分布式架构的该方法可以支撑TB级海量数据的处理,并且具有较高的处理效率,可应用于海量地震观测数据的分析计算. 相似文献