共查询到10条相似文献,搜索用时 62 毫秒
1.
2.
3.
石油勘探过程中所采用的PSDM算法因其计算的复杂度高,规模大,并行度低,所以采用集群的方法不能很好得加速运算,鉴于此我们考虑用FPGA将其算法移植到硬件芯片中.因算法中含有大量M^N运算,所以如何在FPGA中构建速度快、占用资源少的N次方运算器,成为了移植是否成功的关键.本文通过对power运算的算法分析,考虑其数学性质,结合FPGA具体环境设计出全新power运算模块,并将其应用到石油勘探计算中,成功达到了加速运算的预期目标,同时也把硬件的资源消耗降低到新的水平.另外,此运算可以很容易扩展到更宽数据位的运算,具有通用意义. 相似文献
4.
矩阵运算广泛应用于实时性要求的各类电路中,其中矩阵求逆运算最难以实现。基于现场可编程门阵列(FPGA)实现矩阵求逆能够充分发挥硬件的速度与并行性优势,加速求逆运算过程。基于改进的脉动阵列的计算架构,采用一种约化因子求逆的优化算法,将任意一个n×n阶上三角矩阵转换成对角线为1的上三角矩阵,使得除法运算与乘加运算分离开来,大大简化矩阵求逆运算过程。以一个4×4阶上三角矩阵求逆为例,在Xilinx ISE平台下,采用Virtex5 FPGA完成算法实现与功能验证,在14个周期内,使用了2个除法器,3个乘法器与4个加法器实现整个矩阵求逆运算。相比于经典的脉动阵列架构,仅占用近一半资源的同时,性能提升了26.43%;相比于集成更多处理单元(PE)的脉动阵列实现方式,在性能近乎不变的情况下,耗费的资源缩减到1/4,大幅度提升了资源利用率。 相似文献
5.
针对FPGA运算速度快,设计灵活的特点,提出了一种新颖的利用可编程逻辑器件FP-GA和硬件描述语言VHDL实现的功能齐全的32位ALU的方法.该ALU具备4种算术运算,9种逻辑运算,4种移位运算以及比较、求补、奇偶校验等共20种运算.采用层次化设计,给出了ALU的主要子模块,各模块均占用了较少的逻辑资源(LE),实现了节省资源与速度提升.通过QuartusⅡ9.1进行编译,Modelsim6.5SE进行仿真,仿真结果与预期结果一致,将设计下载到Altera公司的EP2C35F484C6 FPGA中进行验证,证实了设计的可行性.实验结果表明,采用基于FPGA技术设计运算器灵活易修改,提高了设计效率. 相似文献
6.
7.
通用中央处理器单元(CPU)往往花费大部分资源用于缓存管理和逻辑控制,只有少部分资源用于计算。因此将专用的计算模块例如图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程逻辑门阵列(FPGA)和其他可编程逻辑单元作为加速器加入系统从而构建异构多核系统以增强计算性能的设计方法已经成为趋势。基于此趋势,提出一种面向矩阵计算的加速系统,通过使用自研专用指令集、特别设计的硬件加速器阵列以及存储架构优化实现对矩阵计算的加速。此外,还通过信箱机制实现与其他系统异构集成后的通信操作。通过Python与UVM验证方法学搭建性能验证平台,进行寄存器传输级(RTL)的性能验证。结果表明,在500 MHz工作频率下,方案中子系统的运算性能最高可达到32 GFLOPS,且与单纯使用二维脉动阵列执行加速的协处理器方案相比,通用矩阵乘(GEMM)算子的计算效率提升了12倍。 相似文献
8.
卷积神经网络ZynqNet广泛应用于边缘设备,但是现有FPGA硬件加速方案的帧率都小于30 FPS,较难满足实时性要求强的场景。文章聚焦于ZynqNet的FPGA加速性能提升,设计了基于多特征块并行计算结构,优化对Expand层的支持,增强了特征的复用,优化输出缓存,并可有效减少访存次数;设计了深度优先的特征和权重缓存机制,采用多Bank的缓存方式,仅需一个周期就能完成特征和权重的读取。基于Xilinx Xc7z045 FPGA芯片,完成了加速器硬件实现与性能测试,工作频率为166 MHz,计算性能为49 FPS,相比传统将整个网络部署到FPGA的方案,计算性能实现3倍加速,能效比提高了5倍。 相似文献
9.