期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周勇《计算机应用》2014,(Z2):99-101

针对传统可信网络中存在会话密钥协商过程易受中间人攻击的不足,提出改进的可信网络连接机制。该机制基于椭圆曲线Diffie-Hellman（ ECDH）算法实现会话密钥的安全协商,用户与节点使用私钥和随机数完成会话密钥的计算。分析表明改进的密钥协商协议具有抗中间人攻击、高效性等特点,会话密钥具有前向安全性及较强的新鲜性和保密性。相似文献

2.

异构集群中CPU与GPU协同调度算法的设计与实现

高原顾文杰丁雨恒彭晖陈泊宇顾雯轩《计算机工程与设计》2020,41(2):592-601

为有效提高异构的CPU/GPU集群计算性能,提出一种支持异构集群的CPU与GPU协同计算的两级动态调度算法。根据各节点计算能力评测结果和任务请求动态分发数据,在节点内CPU和GPU之间动态调度任务,使用数据缓存和数据处理双队列机制,提高异构集群的传输和处理效率。该算法实现了集群各节点“能者多劳”,避免了单节点性能瓶颈造成的任务长尾现象。实验结果表明,该算法较传统MPI/GPU并行计算性能提高了11倍。相似文献

3.

椭圆曲线密码体制中密钥协商方案改进的研究 总被引：3，自引：0，他引：3

邵晓博《计算机安全》2010,(2):23-25

椭圆曲线加密机制（ECC）作为加密强度最高的一种公钥加密算法被广泛应用于各种通信领域。在椭圆曲线密码的基础上实现的密钥协商方案ECDH、ECMQV存在着易受攻击和计算复杂等问题,提出了对密钥协商协议的改进方案,并对改进的方案进行了分析。相似文献

4.

基于多核FPGA的压缩文件密码破译

陈晓杰周清雷李斌《计算机应用研究》2020,37(1):212-215,220

目前,破解WinRAR传统方法是使用CPU和GPU,而潜在的密码空间非常大,需要更高性能计算平台才能在有限的时间内找到正确的密码。因此,采用四核FPGA的硬件平台,实现高效能的WinRAR破解算法。通过在全流水架构下增加预计算和保留进位加法器结合的方法优化SHA-1算法,提升算法吞吐率;利用状态机的控制优化数据拼接,提升算法并行性;同时,采用异步时钟和多个FIFO缓存读写数据优化算法整体架构,降低算法内部的耦合度。实验结果表明,最终优化后的算法资源利用率为75%,频率达到200 MHz,4 位长度的密码破译速度为每秒102 796个,是CPU破解速度的100倍,是GPU的3.5倍。相似文献

5.

新的适用于WSN网络的双方认证密钥协商协议

李明《计算机工程与应用》2016,52(3):100-102

在无线传感器网络（Wireless Sensor Network,WSN）中,如何消耗较小的计算量建立传感器之间的身份认证和会话密钥一直是学界研究的热点。基于椭圆曲线密码体制设计了一种新的认证密钥协商协议。之后对新协议进行了安全性分析和性能分析。分析结果表明,新方案在确保自身安全的前提下,以较小的计算代价实现了WSN网络节点之间的安全密钥协商目标。相似文献

6.

基于OpenSSL的SM2与RSA自动切换算法的设计

下载免费PDF全文

贾冀芳张立新廖明耀《计算机工程与应用》2018,54(3):74-81

为了SSL/TLS协议的安全性与性能能同时满足用户的需求,基于国家商用密码算法（国密算法）的安全性强于通用密码算法、性能弱于通用密码算法的现状,在OpenSSL基础上设计一种SM2与RSA自动切换的算法以满足在性能达标的前提下提高系统的安全性。SSL/TLS握手协议在性能满足需求的前提下,优先使用国密SM2算法,当每秒新建连接数达到一定峰值时,SM2的性能满足不了需求,则系统自动切换到RSA算法,满足更高每秒新建连接数的性能需求。该算法在OpenSSL的数据结构和函数上进行扩展,经过测试实现了在每秒新建SSL/TLS连接数达到一定数值时,SM2算法与RSA算法的自动切换。该算法在满足性能需求的前提下能有效提高系统的安全性。相似文献

7.

基于CDS结构的动态安全组播密钥协商方案

杨松陈礼青《计算机应用与软件》2009,26(12):37-39

设计高效的密钥协商方案是动态安全组播的难点。提出一个应用椭圆曲线密码体制在基于CDS（Connected Dominating Set）结构的动态安全组播中进行密钥协商的方案,具体地分析了各个子组和整个大的组播组的密钥协商过程,以及组成员动态变化时密钥的更新过程。结果表明,该方案在降低计算和通信代价方面取得了较好的效果,且满足密钥协商的安全要求。相似文献

8.

TLS1.3后量子安全迁移方案、实现和性能评测

张枫潘天雨赵运磊《密码学报》2022,(1)

本文分析了NIST量子安全标准化进程第二轮和中国密码算法设计竞赛获奖的格基后量子密码算法,并从性能、安全级别和消息长度等方面对它们进行了比较;探讨了将这些算法集成到TLS 1.3的可行性和途径,通过将后量子密钥封装算法和签名算法及其混合模式集成到标准TLS 1.3,我们实现了一个后量子安全TLS 1.3软件库,可以进行后量子安全握手以对抗量子对手.此外,我们构建了一个测试TLS 1.3协议在各种网络条件下性能的实验框架,允许我们独立控制链路延迟和丢包率等变量,隔离出单独的网络特性,从而在一台电脑上模拟客户机-服务器网络实验,检查各种后量子算法对建立TLS 1.3连接产生的影响.实验结果表明,TCP的分段机制可以保证具有超长公钥/密文/签名的后量子格基密码算法在TLS 1.3协议正常运行;尽管网络延迟会隐藏大部分后量子算法的性能差异,但是在高质量的链路上,计算速度是决定因素;当网络丢包率较大时,具有较短传输数据的后量子算法将展现出带宽优势.我们的实验结果也为在不同网络条件下如何选择后量子算法提供指导,有助于将后量子算法进一步标准化和将TLS 1.3向后量子安全发展和迁移. 相似文献

9.

TLS1.3后量子安全迁移方案、实现和性能评测

张枫潘天雨赵运磊《密码学报》2022,(1)

本文分析了NIST量子安全标准化进程第二轮和中国密码算法设计竞赛获奖的格基后量子密码算法,并从性能、安全级别和消息长度等方面对它们进行了比较;探讨了将这些算法集成到TLS 1.3的可行性和途径,通过将后量子密钥封装算法和签名算法及其混合模式集成到标准TLS 1.3,我们实现了一个后量子安全TLS 1.3软件库,可以进行后量子安全握手以对抗量子对手.此外,我们构建了一个测试TLS 1.3协议在各种网络条件下性能的实验框架,允许我们独立控制链路延迟和丢包率等变量,隔离出单独的网络特性,从而在一台电脑上模拟客户机-服务器网络实验,检查各种后量子算法对建立TLS 1.3连接产生的影响.实验结果表明,TCP的分段机制可以保证具有超长公钥/密文/签名的后量子格基密码算法在TLS 1.3协议正常运行;尽管网络延迟会隐藏大部分后量子算法的性能差异,但是在高质量的链路上,计算速度是决定因素;当网络丢包率较大时,具有较短传输数据的后量子算法将展现出带宽优势.我们的实验结果也为在不同网络条件下如何选择后量子算法提供指导,有助于将后量子算法进一步标准化和将TLS 1.3向后量子安全发展和迁移. 相似文献

10.

基于椭圆曲线和三叉树的群组密钥协商方案

毛江栋张来顺郭渊博张婷《计算机应用与软件》2010,27(7):30-32,36

将椭圆曲线密码体制和三叉树引入到群组密钥协商中,提出了一种基于椭圆曲线和三叉树的群组密钥协商协议,由于无需向群组所有其它成员广播消息,其计算开销和通信开销均只有O（nlog3 n）。采用了用初始协商的密钥值加密随机数并产生杂凑值的方法使三叉树内部结点间也能进行安全的协商;当有群组成员变动时,通过发起者更新其随机数来提供协议的前向保密性和后向保密性,因此该方案适合于较大规模的动态群组。相似文献

11.

Optimization schemes and performance evaluation of Smith–Waterman algorithm on CPU,GPU and FPGA

Dan Zou Yong Dou Fei Xia 《Concurrency and Computation》2012,24(14):1625-1644

With fierce competition between CPU and graphics processing unit (GPU) platforms, performance evaluation has become the focus of various sectors. In this paper, we take a well‐known algorithm in the field of biosequence matching and database searching, the Smith–Waterman (S‐W) algorithm as an example, and demonstrate approaches that fully exploit its performance potentials on CPU, GPU, and field‐programmable gate array (FPGA) computing platforms. For CPU platforms, we perform two optimizations, single instruction, multiple data and multithread, with compiler options, to gain over 70 × speedups over naive CPU versions on quad‐core CPU platforms. For GPU platforms, we propose the combination of coalesced global memory accesses, shared memory tiles, and loop unfolding, achieving 50 × speedups over initial GPU versions on an NVIDIA GeForce GTX 470 card. Experimental results show that the GPU GTX 470 gains 12 × speedups, instead of 100 × reported by some studies, over Intel quadcore CPU Q9400, under the same manufacturing technology and both with fully optimized schemes. In addition, for FPGA platforms, we customize a linear systolic array for the S‐W algorithm in a 45‐nm FPGA chip from Xilinx (XC6VLX760), with up to 1024 processing elements. Under only 133 MHz clock rate, the FPGA platform reaches the highest performance and becomes the most power‐efficient platform, using only 25 W compared with 190 W of the GPU GTX 470. Copyright © 2011 John Wiley & Sons, Ltd. 相似文献

12.

基于FPGA的7-Zip加密文档高能效口令恢复方法

陈晓杰周清雷李斌《计算机科学》2020,47(1):321-328

随着7-Zip压缩软件的广范使用,破解7-Zip加密文档的口令对信息安全有着非常重要的意义。目前,破解7-Zip加密文档主要采用CPU和GPU平台,而潜在的口令空间大,计算复杂度高,在有限的时间内找到正确的口令需要更高性能的计算平台。因此,文中通过分析解密算法的PMC特性,采用可重构的FPGA硬件计算平台,使用流水线技术来实现数据拼接和SHA-256算法,并利用预计算和CSA方法优化SHA-256算法的关键路径,同时使用双端口RAM存储校验数据,从而满足算法的计算需求和存储需求,实现高效能的7-Zip解密算法。实验数据表明,文中提出的优化方法能大幅提升SHA-256算法的性能,使其吞吐量达到110.080 Gbps,并且通过多种方法对解密算法进行优化,最终破解10位长度口令的速率达到了10608个/s,是CPU的226倍,GPU的1.4倍,且能效比是GPU的8倍,极大地提升了算法的性能,降低了高功耗需求。相似文献

13.

基于FPGA的深度强化学习硬件加速技术研究

下载免费PDF全文

凤雷王宾涛刘冰李喜鹏《计算机测量与控制》2022,30(6):242-247

深度强化学习(Deep Reinforcement Learning, DRL)是机器学习领域的一个重要分支,用于解决各种序贯决策问题,在自动驾驶、工业物联网等领域具有广泛的应用前景。由于DRL具备计算密集型的特点,导致其难以在计算资源受限且功耗要求苛刻的嵌入式平台上进行部署。针对DRL在嵌入式平台上部署的局限性,采用软硬件协同设计的方法,设计了一种面向DRL的FPGA加速器,提出了一种设计空间探索方法,在ZYNQ7100异构计算平台上完成了对Cartpole应用的在线决策任务。实验结果表明,研究在进行典型DRL算法训练时的计算速度和运行功耗相对于CPU和GPU平台具有明显的优势,相比于CPU实现了12.03的加速比,相比于GPU实现了28.08的加速比,运行功耗仅有7.748W,满足了深度强化学习在嵌入式领域的在线决策任务。相似文献

14.

A high performance hardware accelerator for dynamic texture segmentation

《Journal of Systems Architecture》2015,61(10):639-645

Hardware accelerators such as general-purpose GPUs and FPGAs have been used as an alternative to conventional CPU architectures in scientific computing applications, and have achieved good speed-up results. Within this context, the present study presents a heterogeneous architecture for high-performance computing based on CPUs and FPGAs, which efficiently explores the maximum parallelism degree for processing video segmentation using the concept of dynamic textures. The video segmentation algorithm includes processing the 3-D FFT, calculating the phase spectrum and the 2-D IFFT operation. The performance of the proposed architecture based on CPU and FPGA is compared with the reference implementation of FFTW in CPU and with the cuFFT library in GPU. The performance report of the prototyped architecture in a single Stratix IV FPGA obtained an overall speedup of 37x over the FFTW software library. 相似文献

15.

Fast finite difference Poisson solvers on heterogeneous architectures

Pedro Valero-Lara Alfredo Pinelli Manuel Prieto-Matias 《Computer Physics Communications》2014

In this paper we propose and evaluate a set of new strategies for the solution of three dimensional separable elliptic problems on CPU–GPU platforms. The numerical solution of the system of linear equations arising when discretizing those operators often represents the most time consuming part of larger simulation codes tackling a variety of physical situations. Incompressible fluid flows, electromagnetic problems, heat transfer and solid mechanic simulations are just a few examples of application areas that require efficient solution strategies for this class of problems. GPU computing has emerged as an attractive alternative to conventional CPUs for many scientific applications. High speedups over CPU implementations have been reported and this trend is expected to continue in the future with improved programming support and tighter CPU–GPU integration. These speedups by no means imply that CPU performance is no longer critical. The conventional CPU-control–GPU-compute pattern used in many applications wastes much of CPU’s computational power. Our proposed parallel implementation of a classical cyclic reduction algorithm to tackle the large linear systems arising from the discretized form of the elliptic problem at hand, schedules computing on both the GPU and the CPUs in a cooperative way. The experimental result demonstrates the effectiveness of this approach. 相似文献

16.

基于GPU的H.264并行解码算法

陈鹏曹剑炜陈庆奎《计算机工程》2014,(1):283-286

针对并行处理H.264标准视频流解码问题,提出基于CPU/GPU的协同运算算法。以统一设备计算架构(CUDA)语言作为GPU编程模型,实现DCT逆变换与帧内预测在GPU中的加速运算。在保持较高计算精度的前提下,结合CUDA混合编程,提高系统的计算性能。利用NIVIDIA提供的CUDA语言,在解码过程中使DCT逆变换和帧内预测在GPU上并行实现,将并行算法与CPU单机实现进行比较,并用不同数量的视频流验证并行解码算法的加速效果。实验结果表明,该算法可大幅提高视频流的编解码效率,比CPU单机的平均计算加速比提高10倍。相似文献

17.

Efficient parallel implementation of three‐point viterbi decoding algorithm on CPU,GPU, and FPGA

Rongchun Li Yong Dou Dan Zou 《Concurrency and Computation》2014,26(3):821-840

In wireless communication, Viterbi decoding algorithm (VDA) is the one of most popular channel decoding algorithms, which is widely used in WLAN, WiMAX, or 3G communications. However, the throughput of Viterbi decoder is constrained by the convolutional characteristic. Recently, the three‐point VDA (TVDA) was proposed to solve this problem. In TVDA, the whole procedure can be divided into three phases, the forward, trace‐back, and decoding phases. In this paper, we analyze the parallelism of TVDA and propose parallel TVDA on the multi‐core CPU, graphics processing unit (GPU), and field programmable gate array (FPGA). We demonstrate approaches that fully exploit its performance potential on CPU, GPU, and FPGA computing platforms. For CPU platforms, we perform two optimization methods, single instruction multiple data and multithreading to gain over 145 × speedup over the naive CPU version on a quad‐core CPU platform. For GPU platforms, we propose the combination of cached memory optimization, coalesced global memory accesses, codeword packing scheme, and asynchronous data transition, achieving the throughput of 404.65 Mbps and 12 × speedup over initial GPU versions on an NVIDIA GeForce GTX580 card and 7 × speedup over Intel quad‐core CPU i5‐2300, under the same manufacturing year and both with fully optimized schemes. In addition, for FPGA platforms, we customize a radix‐4 pipelined architecture for the TVDA in a 45‐nm FPGA chip from Xilinx (XC6VLX760). Under 209.15‐MHz clock rate, it achieves a throughput of 418.30 Mbps. Finally, we also discuss the performance evaluation and efficiency comparison of different flexible architectures for real‐time Viterbi decoding in terms of the decoding throughput, power consumption, optimization schemes, programming costs, and price costs.Copyright © 2013 John Wiley & Sons, Ltd. 相似文献

18.

基于图形处理器的Cuboid算法

周国亮冯海军何国明陈红李翠平王珊《计算机研究与发展》2009,46(Z2)

近年来,基于图形处理器的通用计算获得了广泛关注,并在多个领域取得了进展.内存OLAP减少了磁盘I/O,但基于单核或多核CPU的计算能力及cache miss成为新的性能瓶颈,从而无法保证好的效率.而图形处理器由于其众多核和高带宽能够很好地适应OLAP计算特性.通过图形处理器来加速任一cuboid的计算,从而提高整个内存OLAP系统的性能.提出了基于图形处理器的分块并行算法,并对算法进行了优化及讨论了数据稀疏和数据分布倾斜等不同条件下的算法.算法通过扩展可以突破内存限制,组成磁盘、内存、显存三级流水线,适应海量数据计算;同时算法也可以作为计算整个cube的基础.通过实验比较,基于图形处理器的算法明显优于四核CPU算法. 相似文献

19.

RSA算法的CUDA高效实现技术 总被引：1，自引：1，他引：0

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献