期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张丹丹徐莹徐磊李根国《计算机应用与软件》2012,29(8):78-81

介绍SSearch核心算法的特点,分析该算法的并行性,并以GPU以及类Cell处理器为例分析算法对众核系统的适用性。在此基础上提出众核系统下的SSearch并行模型。相似文献

2.

叶笑春林伟范东睿张浩《软件学报》2010,21(12):3094-3105

在生物信息学中,蛋白质序列比对是最为重要的算法之一,生物技术的发展使得已知的序列库变得越来越庞大,这类算法本身又具有计算密集型的特点,这导致进行序列比对所消耗的时间也越来越长,目前的单核或者数量较少的多核系统均已经难以满足对计算速度的要求.Godson-T是一个包含诸多创新结构的众核平台,在该系统上实现了对一种蛋白质序列比对算法的并行化,并且结合蛋白质比对算法以及Godson-T结构的特征,针对同步开销、存储访问竞争以及负载均衡3个方面对算法进行了细致的优化,最终并行部分整体也获得了更优的、接近线性的加速比,并且实际性能远远优于基于AMD Opteron处理器的工作站平台. 相似文献

3.

并行高吞吐率多模极化码编码器设计

刘丽华管武梁利平《计算机工程》2019,45(4):72-77

为获得可以支持多种码长、具有更高吞吐率的极化码编码器,提出一种32 bit并行级联的多模极化码编码器结构。每时钟周期内更新生成矩阵的32行,进行32 bit并行编码,从而加快编码速度。通过两级编码结构的级联简化编码器结构,以支持64 bit～4 096 bit码长的极化码编码。实验结果表明,在Xilinx XC6VLX240t的FPGA上,该编码器主频为303.82 MHz,吞吐率为9.72 Gb/s,寄存器与查找表资源相比快速傅里叶变换结构分别降低了77.6%与63.3%,在65 nm CMOS工艺下主频可达0.796 GHz,吞吐率可达24.615 Gb/s。相似文献

4.

众核处理器和众核集群的并行模拟

吕慧伟程元白露陈明宇范东睿孙凝晖《计算机研究与发展》2013,50(5):1110-1117

模拟器是计算机体系结构研究的重要工具.近年来并行计算机体系结构的发展给计算机模拟带来了巨大的挑战.一方面,随着体系结构朝着多核以及众核处理器发展,模拟的目标系统规模随着模拟核数以摩尔定律的速度增加而不断增大;另一方面,串行模拟的速度因为模拟器运行所在宿主机主频提速减缓而停滞不前.上述两方面的原因使得传统的串行模拟方式无法满足对新兴体系结构模拟规模和速度的需求.以众核处理器和众核集群这两种体系结构为例,并行模拟技术在并行计算机体系结构模拟中是必要而且可行的.对于众核处理器的模拟,使用并行离散事件模拟对其进行加速,在模拟精度不变的前提下,提高模拟速度10.9倍.对于众核集群的模拟,模拟的目标系统总规模达到1024核,并且支持MPI/Pthreads混合编程的运行环境. 相似文献

5.

高吞吐率低时延图像DCT处理器设计

刘思军秦明伟刘多强《电子技术应用》2021,47(9):69-74

针对高分辨率、高帧率图像实时压缩问题,设计了一种应用于高速图像JPEG压缩编码系统的离散余弦变换(DCT)处理器.设计的DCT处理器基于Virtex-7系列FPGA,充分利用并行和流水线处理技术,采用基于蝶形流图结构的行列分解算法,实现了快速二维离散余弦变换(2D-DCT).为了提高数据吞吐率,设计了双核DCT处理单元... 相似文献

6.

有限元网格积分算法在MIC众核平台上的并行实现

寇大治孔大力《计算机科学》2015,42(11):56-58, 62

基于英特尔集成众核(Many Integrated Core,MIC)架构,将有限元网格积分算法在至强融核(Xeon Phi)协处理器做了移植和性能分析。该应用全面测试了有限元分析的核心计算过程在MIC上的加速效果,实现了卸载模式(offload)[1]下利用OpenMP在MIC上的线程并行化。计算性能测试结果显示集成众核平台可以有效地加速有限元网格积分算法:1)一块被充分利用的MIC设备卡(3115A)的计算能力超过两路16核Intel XeonTM E5-2670 CPU;2)MIC并发的物理线程可能由于公共缓存访问存在竞争而降低程序的扩展性。测试结果还显示了在多CPU多MIC平台上进一步移植完整的MPI并行有限元模拟软件的可行性。这项工作有助于推动与有限元网格相关的科学和工程高性能计算的研究。相似文献

7.

基于HRCA的可重构SM4密码算法研究与实现

下载免费PDF全文

张骁周清雷李斌《网络与信息安全学报》2020,6(5):101-109

针对同时要求高吞吐率和高安全性的应用场景,提出了基于HRCA的高性能可扩展的SM4实现方案。首先,通过分析对 SM4 提取出的不同粒度的基础算核,提出了一个通用的粗粒度可重构计算单元;然后,为满足不同加密模式的需要给出了多种映射策略,根据不同策略将算法映射到重构计算单元;最后,通过分割控制平面和数据平面优化SM4整体架构。实验结果表明,使用所提方法,SM4算法在较低的资源消耗下吞吐量有了明显提高。相似文献

8.

同构多核/众核处理器任务分配自适应模拟退火算法

闫乔覃志东王绍宇闫红曼《计算机科学》2014,41(6):18-21,53

随着多核/众核处理器核心数快速增加,任务分配解空间急剧增大,降低近似解的相对偏差越来越难。提出一种自适应模拟退火算法,建立了模拟退火算法中参数与优化环境任务数和核心数的关系。核心数的增加不但可以有效降低近似解的相对偏差,而且使任务分配算法具有较高的环境自适应能力。与较近研究成果相比较,在16核心时,自适应模拟退火算法迭代次数增加41%,相对偏差降低86%。相似文献

9.

基于BWDSP众核的CNN计算任务划分优化

王改郑启龙邓文齐杨江平卢茂辉《计算机系统应用》2019,28(9):88-94

作为深度学习算法之一的卷积神经网络在多个领域有着重要的应用.因为其网络模型的规模和结构比较复杂,数据量较大,故需要考虑降低其对计算资源的要求.一般地,对于大数据量的计算任务,需要使用数据并行的方法进行任务的划分计算,而仅使用数据并行而对计算的任务的特点不加以结合,其数据传输量较高.因此需要通过对CNN网络结构及其计算特性的分析,设计合理的计算任务划分策略,减少数据的传输量.本文首先介绍了深度学习加速器中对计算任务的优化处理,接着介绍BWDSP的众核深度学习加速器的体系架构,并设计计算划分策略,基于VGGNet-16网络模型进行实验对比分析.实验结果表明该优化算法可以显著的提高数据传输的性能,降低数据的传输量. 相似文献

10.

PartitionSim:一个面向众核结构的并行模拟器

焦帅徐卫志唐士斌范东睿孙凝晖《计算机学报》2011,34(11):2084-2092

该文提出了一个面向众核处理器的并行模拟器:PartitionSim.PartitionSim采用了一种新颖的方法——时序分割来加速众核结构模拟.时序分割的提出基于这样的观察:在众核结构中,有些模块之间频繁交互而有的模块之间没有交互.有鉴于此,该方法将目标结构分割成两部分:交互部分和非交互部分.当模拟交互部分时,主机线程... 相似文献

11.

基于申威众核处理器的混合并行遗传算法

赵瑞祥郑凯刘垚王肃刘艳沈焕学周谦豪《计算机应用》2017,37(9):2518-2523

传统遗传算法求解计算密集型任务时,适应度函数的执行时间增加相当快,致使当种群规模或者进化代数增大时,算法的收敛速度非常缓慢。基于此,设计了"粗粒度-主从式"混合式并行遗传算法（HBPGA）,并在目前TOP500上排名第一的超级计算机神威"太湖之光"平台上实现。该算法模型采用两级并行架构,结合了MPI和Athread两种编程模型,与传统在单核或者一级并行构架的多核集群上实现的遗传算法相比,在申威众核处理器上实现了二级并行,并得到了更好的性能和更高的加速比。实验中,当从核数为16×64时,最大加速比达到544,从核加速比超过31。相似文献

12.

一种基于众核架构的稠密光流并行计算方法

喻津周浩杰柴志雷《计算机工程与应用》2016,52(16):186-191

光流法是计算机视觉中的一个基础性算法,可广泛应用于运动检测、运动估计、视频分析等领域。但高质量光流法最大的问题是计算复杂、速度慢,限制了它在实际系统中的应用。针对一种混合亮度和梯度模型的高质量光流法,为其设计了一种高效、可扩展的并行计算方法。通过在具有代表性的网络众核架构-Tilera上进行验证,对于分辨率为640×480的图片,提出的并行计算方法在具有36核的Tilera处理器上执行时间为0.80秒,比主频3.40 GHz的CPU i3-3240快2.56倍,但功耗不到其1/6。当用于嵌入式环境时,其速度比ARM9处理器快33倍,而功耗只有它的一半。实验表明该并行算法具有良好的扩展性,可通过选择不同核数的处理器满足系统对性能、功耗的综合需求。相似文献

13.

基于国产众核架构CESM中有限差分计算优化

陈宏博钱雪忠甘霖《计算机应用研究》2021,38(2):501-505

针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不高等不足,缓解了申威26010处理器在有限差分法求解过程的通信瓶颈。对CESM中以有限差分法为核心计算的两个函数,在申威26010众核处理器上的测试结果表明,提出算法及优化策略拥有21.2倍的性能提升。相似文献

14.

基于蓝牙单芯片的复杂密码算法实现机制

黄一才郁滨《计算机应用》2012,32(12):3453-3455

在深入分析蓝牙芯片内部结构的基础上,结合蓝牙芯片工作特点,设计了基于数字信号处理器(DSP)协处理器密码算法指令并行结构模型和算法工作的过程。该模型综合考虑算法存储空间和时间开销两方面的性能,将计算量大、复杂度高的密码算法利用DSP实现。实验结果表明,该方法可以减小密码算法对蓝牙传输性能的影响,解决了蓝牙单芯片实现复杂算法的问题。相似文献

15.

Accelerating the SRP-PHAT algorithm on multi- and many-core platforms using OpenCL

Badía Jose M. Belloch Jose A. Cobos Maximo Igual Francisco D. Quintana-Ortí Enrique S. 《The Journal of supercomputing》2019,75(3):1284-1297

The Steered Response Power with Phase Transform (SRP-PHAT) algorithm is a well-known method for sound source localization due to its robust performance in noisy and reverberant environments. This algorithm is used in a large number of acoustic applications such as automatic camera steering systems, human–machine interaction, video gaming and audio surveillance. SPR-PHAT implementations require to handle a high number of signals coming from a microphone array and a huge search grid that influences the localization accuracy of the system. In this context, high performance in the localization process can only be achieved by using massively parallel computational resources. Different types of multi-core machines based either on multiple CPUs or on GPUs are commonly employed in diverse fields of science for accelerating a number of applications, mainly using OpenMP and CUDA as programming frameworks, respectively. This implies the development of multiple source codes which limits the portability and application possibilities. On the contrary, OpenCL has emerged as an open standard for parallel programming that is nowadays supported by a wide range of architectures. In this work, we evaluate an OpenCL-based implementations of the SRP-PHAT algorithm in two state-of-the-art CPU and GPU platforms. Results demonstrate that OpenCL achieves close-to-CUDA performance in GPU (considered as upper bound) and outperforms in most of the CPU configurations based on OpenMP.

相似文献

16.

基于DNA密码的一次一密加密算法

王子成赵晓航王宏崔光照《计算机工程与应用》2014,50(15):97-100

作为不可破译的密码,一次一密密码是信息安全领域的一个重要研究课题,但密钥生成、存储和分配时存在较大困难,使得一次一密密码很难实现。以生物分子为基础的DNA计算,因其巨大的信息存储能力和高度的并行计算能力,可用于一次一密密码。非特异性杂交反应严重影响了加密过程和解密过程,通过PCR实现密钥分配,通过电子计算机实现异或运算,有效消除了非特异性杂交反应对加密结果和解密结果的影响。相似文献

17.

申威众核处理器的并行NSGA-II算法

下载免费PDF全文

沈焕学郑凯刘垚王肃刘艳赵瑞祥周谦豪《计算机工程与应用》2018,54(17):35-40

非支配排序遗传算法（NSGA-II）在多目标优化领域有着广泛的应用,但在处理复杂问题时运行时间相当长。并行化是提高算法执行速度的有效途径。众核处理器的出现,为实现高度并行奠定了物质基础。基于国产超算“神威·太湖之光”的申威众核处理器平台设计了并行NSGA-II算法（PNSGA-II）,实现了算法基于主核的一级并行和基于主/从核的二级并行。在典型测试函数集上的实验表明,在不影响解的质量前提下,PNSGA-II算法不仅大大加快了执行速度,同时算法的收敛速度也更快。相似文献

18.

基于申威众核处理器的圣维南求解程序的并行与优化

丁哲昭储根深胡长军李扬《计算机工程与科学》2021,43(5):820-829

圣维南方程组可用于描述明渠非恒定流的汇流过程,在大规模水文模拟软件中,求该方程组的数值解是制约程序运行时间的最大瓶颈.通过分析串行程序结构及其计算热点,挖掘计算密集型程序中单步模拟循环计算段和指令排列等的可并行性,针对"神威·太湖之光"超级计算机的异构众核架构设计主从核异步并行方案,基于MPI和athread库对求解程... 相似文献

19.

基于动态规划的暗硅背景下功率受限众核系统芯片功率分配方法研究

何元烈郑龙《计算机应用研究》2016,33(4)

高性能众核系统芯片快速增长的功耗成为限制其性能发展的瓶颈之一。由于受到散热、封装、外部供电能力等限制,众核系统芯片的功率预算不足以支撑芯片内所有处理器核同时正常工作。针对暗硅背景下功率受限的情况,对众核系统芯片功率分配进行了研究。提出一种新的能量分配算法--基于动态规划的并行分配方式,在功率受限的情况的下达到最优化性能。通过实验证明,与其他三种知名的方法相比,可以有效的减少30%的执行时间,同时运行开销和硬件成本也比较小,这使得该方案适用于未来的众核系统。相似文献

20.

可信计算环境数据封装方法*

刘昌平范明钰王光卫《计算机应用研究》2009,26(10):3891-3893

数据加解密、数据封装和数字信封是可信密码模块的三种数据安全保护方式。在可信计算环境下提出了一种数据封装方法。该方法将数据绑定于可信密码模块和特定的平台状态,使得受保护数据只能由特定用户在指定可信计算环境特定的平台状态下才能解密。实验表明,该方法在可信计算环境下以较小的代价实现了数据的封装,保护数据的安全性。相似文献