期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

聂一郑博文柴志雷《计算机应用研究》2022,39(7)

随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算法加密系统,包含了AES算法ECB、CBC、CTR三种主流模式,每种模式实现了128 bit、192 bit、256 bit三种密钥大小的加密。基于FPGA对模块分别进行了硬件加速,同时基于硬件可重构机制实现了不同模式及不同位宽加密模块的动态切换。通过在Intel Stratix 10上实现并验证该系统,实验结果表明：系统中AES-ECB、AES-CTR、AES-CBC吞吐率分别达到116.43 Gbps、60.34 Gbps、4.32 Gbps,ECB模式相比于Intel Xeon E5-2650 V2 CPU和Nvidia GeForce GTX 1080 GPU分别获得了23.18倍与1.43倍的加速比,整体系统相比纯软件方式的计算加速比达到4.72。相似文献

2.

基于OpenCL的HMAC-SHA256算法优化与实现

郑博文聂一柴志雷《计算机与数字工程》2023,(11):2483-2489

HMAC算法作为主流消息认证算法之一,面临着以纯软件方式运行速度慢,以传统的FPGA硬件实现方式更新维护困难的问题。针对上述问题,设计了HMAC-SHA256算法的定制计算架构并基于OpenCL以高层次描述方式进行了实现。具体包括计算路径优化、存储结构与查找表优化、HMAC-SHA256全流水结构设计。基于OpenCL的计算任务分组优化、数据存储优化、数据通道矢量化等手段实现了HMAC-SHA256算法的FPGA定制计算架构。实验结果表明：在Intel Stratix 10 FPGA平台上,所实现的HMAC-SHA256吞吐率达到174.236Gbps,与Intel Core I7-10700 CPU相比,性能提升了656%,能效提升了1514%;与NVIDIA GTX 1650 SUPER GPU相比,性能提升了14%,能效提升了288%。相似文献

3.

基于FPGA的高性能可扩展SM4-GCM算法实现

翟嘉琪李斌周清雷陈晓杰《计算机科学》2022,(10):74-82

在大数据和5G技术蓬勃发展的背景下,高速通信系统中的信息加密成为了新的研究热点,如何在保证数据高安全性的同时,提高数据吞吐率,降低加密算法适配不同应用场景的难度成为了重要的研究课题。针对传统软件实现的SM4-GCM算法吞吐率小、难以在多变的5G及大数据场景下应用的问题,文中基于FPGA可重构的特点,深入剖析SM4-GCM算法的特征,利用Mastrovito算法、Karatsuba算法、快速求余算法,设计了两种高性能、数控分离、可扩展的电路结构,分别采用全流水线技术和四度并行技术对SM4-GCM算法进行加速优化,在保证高安全性的同时,达到了较高吞吐率,并且可灵活移植于各种应用场景。实验结果表明,所提出的两种方案中的单个SM4-GCM模块的吞吐率分别达到了28.16 Gbps和28.8 Gbps,在性能、可扩展性等方面均优于同类已发表的设计。相似文献

4.

基于HRCA的可重构SM4密码算法研究与实现

下载免费PDF全文

张骁周清雷李斌《网络与信息安全学报》2020,6(5):101-109

针对同时要求高吞吐率和高安全性的应用场景,提出了基于HRCA的高性能可扩展的SM4实现方案。首先,通过分析对 SM4 提取出的不同粒度的基础算核,提出了一个通用的粗粒度可重构计算单元;然后,为满足不同加密模式的需要给出了多种映射策略,根据不同策略将算法映射到重构计算单元;最后,通过分割控制平面和数据平面优化SM4整体架构。实验结果表明,使用所提方法,SM4算法在较低的资源消耗下吞吐量有了明显提高。相似文献

5.

面向国产CPU的可重构计算系统设计及性能探究

下载免费PDF全文

彭福来于治楼陈乃阔耿士华李凯一《计算机工程与应用》2018,54(23):36-41

为了提升国产平台的计算性能,采用国产CPU+FPGA的异构架构,设计了基于国产CPU的可重构计算系统。该系统包括基于国产CPU的主机单元和FPGA可重构加速单元,主机单元负责逻辑判断与管理调度等任务,FPGA负责对计算密集型任务进行加速,并采用OpenCL框架模型进行编程,以缩短FPGA的开发周期。为了验证该系统的性能,采用AES加密算法来测试该系统的计算性能,通过对不同长度的明文进行AES加密测试,并与CPU串行处理结果进行对比,得出：相比于单核FT-1500A CPU串行加密方式,采用可重构计算系统并行加密能够获得120多倍的加速比,且此加速比会随着明文长度的增加而成非线性增大。实验结果表明：基于国产CPU的可重构计算系统能够大幅提升国产平台的计算性能。相似文献

6.

基于OpenCL的3DES算法FPGA加速器

吴健凤郑博文聂一柴志雷《计算机工程》2021,47(12):147-155,162

在数字货币、区块链、云端数据加密等领域,传统以软件方式运行的数据加解密存在计算速度慢、占用主机资源、功耗高等问题,而以Verilog/VHDL等方式实现的现场可编程门阵列（FPGA）加解密系统又存在开发周期长、维护升级困难等问题。针对3DES算法,提出一种基于OpenCL的FPGA加速器设计方案。设计具有48轮迭代的流水并行结构,在数据传输模块中采用数据存储调整、数据位宽改进策略提高内核实际带宽利用率,在算法加密模块中采用指令流优化策略形成流水线并行架构,同时采用内核矢量化、计算单元复制策略进一步提高内核性能。实验结果表明,该加速器在Intel Stratix 10 GX2800上可获得111.801 Gb/s的吞吐率,与Intel Core i7-9700 CPU相比性能提升372倍,能效提升644倍,与NvidiaGeForce GTX 1080Ti GPU相比性能提升20%,能效提升9倍。相似文献

7.

基于国密算法SM2、SM3、SM4的高速混合加密系统硬件设计

李建立莫燕南粟涛陈弟虎《计算机应用研究》2022,39(9)

随着电子信息技术的快速发展,数据的安全性问题日益严峻,传统单一制密码算法在安全性与运算速率上已不能满足要求。为了解决大数据时代下所提出的加密需求,提出了一种基于国密算法SM2、SM3、SM4的高速混合加密系统的硬件设计方案,并针对SM2和SM4算法的底层硬件结构进行优化：对SM2算法采用Karatsuba Ofman模乘器与点运算并行方案进行优化。对SM4算法提出了一种基于复合域S盒的二次流水全展开硬件架构。实验结果表明,该系统所实现的各算法电路均具有较高性能。SM2的点乘时间缩短至68.37 μs;SM3的杂凑值生成仅需0.71 μs;SM4吞吐率最高达53.76 Gbps。相比同等安全性的SM2算法,该混合系统在加密时间上减小了26.67%,具有实用价值。与相关工作进行对比分析,可证明该方案在安全性和加/解密性能上均有一定优势。相似文献

8.

基于OpenCL的MD5破解算法

下载免费PDF全文

翁捷吴强杨灿群《计算机工程》2011,37(4):119-121

在基于GPU的异构平台上,采用开放计算语言(OpenCL)实现破解算法,利用分轮生成攻击密码、图形渲染管线加速存取以及多密码并行等方法对算法进行优化,在Intel四核CPU Q8230(2.3 GHz)和一片NVIDIA GT200组成的平台上进行实验。实验结果表明,在相同CPU平台上该算法能够获得高于破解软件John the ripper 17倍的破解速度。相似文献

9.

面向可重构计算系统的模块映射算法

下载免费PDF全文

刘杰吴强赵全伟《计算机工程》2012,38(3):276-279,283

为消除重构时间对可重构计算系统性能的影响,针对多重构模块,提出一种基于动态部分可重构技术的顺序型应用程序模块映射算法。利用动态可重构技术的高效性和灵活性,通过隐藏重构时间,达到减少程序执行时间和提高系统性能的目的。基于JPEG编码测试实例的实验结果表明,运用该算法实现的模块映射方案其程序执行速度是软件实现方式的3.31倍,是硬件方式的2.59倍。相似文献

10.

基于Intel MIC架构的3D有限差分算法优化

郝鑫郭绍忠《计算机科学》2017,44(5):26-32

有限差分算法是一种基于偏微分方程的数值离散方法,被广泛应用于弹性波传播问题的数值模拟中。该算法访存跨度大、计算密度高、CPU利用率低,这在实际应用中成为了性能瓶颈。针对上述问题,在详析3D有限差分算法(3DFD)的基础上,基于Intel MIC架构,采用三步递进法对其进行优化:首先,通过分支消除、循环展开、不变量外提等基本优化法削减计算强度并为向量化扫除障碍;然后,通过分析数据依赖及循环分块,使用向量指令集改写核心算法等并行优化法,充分利用MIC协处理器多线程、长向量的机制;最后,在异构众核平台(CPU+MIC:Many Integra-ted Cores)下通过数据传输最小化、负载均衡等异构协同优化法实现CPU和MIC的并行计算。实验验证,与原有算法相比,优化后的算法在异构平台上获得了50～120倍的加速。相似文献

11.

基于Intel Xeon Phi的激光等离子体粒子模拟研究

姚文科杜云飞吴　强　杨灿群《计算机工程与科学》2014,36(5):809-813

激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式：首先运用Native模式对LARED P程序中热点计算任务进行优化研究,通过采用SIMD扩展指令使该计算任务获得了4.61倍的加速;然后运用Offload模式将程序移植到CPU-Intel Xeon Phi异构系统上,并通过使用异步数据传输和双缓冲技术分别提升了程序性能9.8%和21.8%。相似文献

12.

低功耗异构计算架构的高光谱遥感图像分类研究

刘鹏飞朱健晨万良易江波《计算机工程》2022,48(12):9

高光谱图像分类算法通常需要逐点对图像中的像素点进行迭代处理,计算复杂度及并行程度存在较大差异。随着高光谱遥感图像空间、光谱和辐射分辨率的不断提升,这些算法无法满足实时处理海量遥感图像数据的需求。通过分析NPU存储计算一体化模式与遥感图像分类算法的实现步骤,设计低功耗CPU+NPU异构资源计算架构的低秩稀疏子空间聚类（LRSSC）算法,将数据密集型计算转移至NPU,并利用NPU数据驱动并行计算和内置AI加速,对基于机器学习算法的海量遥感数据进行实时分类。受到big.LITTLE计算范式的启发,CPU+NPU异构资源计算架构由8 bit和低精度位宽NPU共同组成以提高整体吞吐量,同时减少图网络推理过程中的能量损耗。实验结果表明,与CPU计算架构和CPU+GPU异构计算架构的LRSSC算法相比,CPU+NPU异构计算架构的LRSSC算法在Pavia University遥感数据集下的计算速度提升了3~14倍。相似文献

13.

基于异构计算平台的规则处理器的设计与实现

陈孟东郭东升谢向辉吴东《计算机科学》2020,47(4):312-317

对于身份认证机制中的安全字符串恢复,字典结合变换规则是一种常用的方法。通过变换规则的处理,可以快速生成大量具有针对性的新字符串供验证使用。但是,规则的处理过程复杂,对处理性能、系统功耗等有很高的要求,现有的工具和研究都是基于软件方式进行处理,难以满足实际恢复系统的需求。为此,文中提出了基于异构计算平台的规则处理器技术,首次使用可重构FPGA硬件加速规则的处理过程,同时使用ARM通用计算核心进行规则处理过程的配置、管理、监控等工作,并在Xilinx Zynq XC7Z030芯片上进行了具体实现。实验结果表明,在典型情况下,该混合架构的规则处理器相比于单纯使用ARM通用计算核心,性能提升了214倍,规则处理器的运行性能优于Intel i7-6700 CPU,性能功耗比相比NVIDIA GeForce GTX 1080 Ti GPU有1.4~2.1倍的提升,相比CPU有70倍的提升,有效提升了规则处理的速率和能效。实验数据充分说明,基于异构计算平台,采用硬件加速的规则处理器有效解决了规则处理中的速率和能效问题,可以满足实际工程需求,为整个安全字符串恢复系统的设计奠定了基础。相似文献

14.

神威E级原型机互连网络和消息机制

高剑刚卢宏生何王全任秀江陈淑平斯添浩周舟胡舒凯于康魏迪《计算机学报》2021,44(1):222-234

本文描述了神威E级原型机的互连网络和消息机制.神威E级原型机是继神威蓝光、神威?太湖之光之后神威家族的第三代计算机.该计算机作为一台E级计算机的原型机,峰值性能3.13PFlops,其最大的特色之一就是采用28Gbps传输技术,设计开发了新一代的神威高阶路由器和神威高性能网络接口两款芯片,在传统胖树的基础上,设计了双轨... 相似文献

15.

一种基于C-PCI总线的HMCS地址映射机制研究

周先谱童朝南《计算机工程与应用》2008,44(10):71-74

针对总线型计算机的主机风险与主机效率问题,提出了一种无主多处理器结构,以Intel-21554非透明桥为硬件基础,在这种结构中建立了处理器域之间的地址映射模型。这不但能够解决传统系统面临的根本问题,同时提供了灵活的系统级备份模式,具有最高处理器安装密度以及信息处理能力,系统的综合性能被最大化。相似文献

16.

Real-time embedded systems powered by FPGA dynamic partial self-reconfiguration: a case study oriented to biometric recognition applications

Francisco Fons Mariano Fons Enrique Cantó Mariano López 《Journal of Real-Time Image Processing》2013,8(3):229-251

This work aims to pave the way for an efficient open system architecture applied to embedded electronic applications to manage the processing of computationally complex algorithms at real-time and low-cost. The target is to define a standard architecture able to enhance the performance-cost trade-off delivered by other alternatives nowadays in the market like general-purpose multi-core processors. Our approach, sustained by hardware/software (HW/SW) co-design and run-time reconfigurable computing, is synthesizable in SRAM-based programmable logic. As proof-of-concept, a run-time partially reconfigurable field-programmable gate array (FPGA) is addressed to carry out a specific application of high-demanding computational power such as an automatic fingerprint authentication system (AFAS). Biometric personal recognition is a good example of compute-intensive algorithm composed of a series of image processing tasks executed in a sequential order. In our pioneer conception, these tasks are partitioned and synthesized first in a series of coprocessors that are then instantiated and executed multiplexed in time on a partially reconfigurable region of the FPGA. The implementation benchmark of the AFAS either as a pure software approach on a PC platform under a dual-core processor (Intel Core 2 Duo T5600 at 1.83 GHz) or as a reconfigurable FPGA co-design (identical algorithm partitioned in HW/SW tasks operating at 50 or 100 MHz on the second smallest device of the Xilinx Virtex-4 LX family) highlights a speed-up of one order of magnitude in favor of the FPGA alternative. These results let point out biometric recognition as a sensible killer application for run-time reconfigurable computing, mainly in terms of efficiently balancing computational power, functional flexibility and cost. Such features, reached through partial reconfiguration, are easily portable today to a broad range of embedded applications with identical system architecture. 相似文献

17.

知识可编程智能芯片系统:概念、架构与展望

张俊王飞跃《模式识别与人工智能》2018,31(10):869-876

本文原创性地提出知识可编程智能芯片系统(KPI-CS)及其理论和工程体系.该系统在当前最先进的异构计算和可重构人工智能(AI)芯片技术的基础上,深度融合复杂系统工程理论、知识工程理论与技术、半导体芯片研发技术、人工智能可重构算法技术,提出基于知识的可重构智能芯片和计算系统平台技术.该系统旨在支持AI应用场景适应性、AI系统重构灵活性、AI算法算力合理性的平行智能AI芯片系统平台和对应的知识服务平台.同时,作为应用展望,KPI-CS与相应的应用平台联动,为平行复杂系统管理与控制、智能交通、智能能源、平行区块链、智能医疗等研究领域和工程实践提供新一代的实时、高效、自适应的计算系统支撑. 相似文献

18.

异构重构计算系统应用任务调度的性能分析

谭一鸣曾国荪郝水侠《小型微型计算机系统》2012,33(2):404-408

异构重构计算是目前高性能计算的研究热点.由于应用任务的异构性,以及体系结构的可重构性,导致异构重构计算的性能分析非常困难,现有的并行计算性能分析方法不再适用.本文提出一种基于应用任务调度的性能分析方法,该方法以异构重构计算系统模型和应用任务模型为基础,利用异构匹配、重构耦合矩阵,实现应用任务和处理部件的优化选择和耦合匹配,通过调度算法求出应用任务在异构重构计算系统中的完成时间,并进行了实例分析. 相似文献