首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
《信息技术》2019,(12):110-115
FPGA(现场可编程门阵列)作为人工智能应用的新加速载体,可替GPU对人工智能应用推理阶段进行加速。文中提出了一种新的人工智能应用加速方案,利用定点、矩阵压缩等方法对卷积神经网络(CNN)模型进行处理,优化CNN网络模型,并设计开发一套驱动软件框架以适配国产平台。该技术在飞腾1500A国产服务器上对卷积神经网络中的人脸识别与目标检测应用进行加速,运算性能较目前国产服务器运算能力提升30倍以上,实现自主可控的人工智能应用加速。  相似文献   

2.
目前国产数据库性能的评价标准十分模糊,由于缺乏官方指导和第三方经验总结,导致国产数据库性能提升之路困难重重。对此,提出基于开源数据库技术的国产数据库性能提升研究。分析数据库现状,对国产数据库的技术、性能等深入分析,并针对影响数据库性能的主要因素,数据块缓冲体系与操作系统缓冲区、关键业务中SQL语句的执行效率作出优化指导。针对不同应用软件的特性做针对性数据库性能提升研究,对高并发应用、大型复杂应用提出优化建议,有效提升各领域应用软件的国产数据库使用性能。  相似文献   

3.
石油勘探过程中所采用的PSDM算法因其计算的复杂度高,规模大,并行度低,所以采用集群的方法不能很好得加速运算,鉴于此我们考虑用FPGA将其算法移植到硬件芯片中.因算法中含有大量M^N运算,所以如何在FPGA中构建速度快、占用资源少的N次方运算器,成为了移植是否成功的关键.本文通过对power运算的算法分析,考虑其数学性质,结合FPGA具体环境设计出全新power运算模块,并将其应用到石油勘探计算中,成功达到了加速运算的预期目标,同时也把硬件的资源消耗降低到新的水平.另外,此运算可以很容易扩展到更宽数据位的运算,具有通用意义.  相似文献   

4.
矩阵运算广泛应用于实时性要求的各类电路中,其中矩阵求逆运算最难以实现。基于现场可编程门阵列(FPGA)实现矩阵求逆能够充分发挥硬件的速度与并行性优势,加速求逆运算过程。基于改进的脉动阵列的计算架构,采用一种约化因子求逆的优化算法,将任意一个n×n阶上三角矩阵转换成对角线为1的上三角矩阵,使得除法运算与乘加运算分离开来,大大简化矩阵求逆运算过程。以一个4×4阶上三角矩阵求逆为例,在Xilinx ISE平台下,采用Virtex5 FPGA完成算法实现与功能验证,在14个周期内,使用了2个除法器,3个乘法器与4个加法器实现整个矩阵求逆运算。相比于经典的脉动阵列架构,仅占用近一半资源的同时,性能提升了26.43%;相比于集成更多处理单元(PE)的脉动阵列实现方式,在性能近乎不变的情况下,耗费的资源缩减到1/4,大幅度提升了资源利用率。  相似文献   

5.
针对FPGA运算速度快,设计灵活的特点,提出了一种新颖的利用可编程逻辑器件FP-GA和硬件描述语言VHDL实现的功能齐全的32位ALU的方法.该ALU具备4种算术运算,9种逻辑运算,4种移位运算以及比较、求补、奇偶校验等共20种运算.采用层次化设计,给出了ALU的主要子模块,各模块均占用了较少的逻辑资源(LE),实现了节省资源与速度提升.通过QuartusⅡ9.1进行编译,Modelsim6.5SE进行仿真,仿真结果与预期结果一致,将设计下载到Altera公司的EP2C35F484C6 FPGA中进行验证,证实了设计的可行性.实验结果表明,采用基于FPGA技术设计运算器灵活易修改,提高了设计效率.  相似文献   

6.
本次研究面向红外对空预警探测领域的实际问题,开展高分辨率红外图像目标检测算法设计与工程化应用验证。文中研究设计了基于中值滤波、卷积滤波核形态学滤波等的目标检测算法,并基于FPGA平台进行硬件移植验证与测试。实验表明本文采用的方法可以实现对高分辨率红外图像的目标检测功能,并且基于FPGA硬件提升算法的运算速度,使算法在FPGA硬件平台上完成实时运算传输的要求。  相似文献   

7.
通用中央处理器单元(CPU)往往花费大部分资源用于缓存管理和逻辑控制,只有少部分资源用于计算。因此将专用的计算模块例如图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程逻辑门阵列(FPGA)和其他可编程逻辑单元作为加速器加入系统从而构建异构多核系统以增强计算性能的设计方法已经成为趋势。基于此趋势,提出一种面向矩阵计算的加速系统,通过使用自研专用指令集、特别设计的硬件加速器阵列以及存储架构优化实现对矩阵计算的加速。此外,还通过信箱机制实现与其他系统异构集成后的通信操作。通过Python与UVM验证方法学搭建性能验证平台,进行寄存器传输级(RTL)的性能验证。结果表明,在500 MHz工作频率下,方案中子系统的运算性能最高可达到32 GFLOPS,且与单纯使用二维脉动阵列执行加速的协处理器方案相比,通用矩阵乘(GEMM)算子的计算效率提升了12倍。  相似文献   

8.
卷积神经网络ZynqNet广泛应用于边缘设备,但是现有FPGA硬件加速方案的帧率都小于30 FPS,较难满足实时性要求强的场景。文章聚焦于ZynqNet的FPGA加速性能提升,设计了基于多特征块并行计算结构,优化对Expand层的支持,增强了特征的复用,优化输出缓存,并可有效减少访存次数;设计了深度优先的特征和权重缓存机制,采用多Bank的缓存方式,仅需一个周期就能完成特征和权重的读取。基于Xilinx Xc7z045 FPGA芯片,完成了加速器硬件实现与性能测试,工作频率为166 MHz,计算性能为49 FPS,相比传统将整个网络部署到FPGA的方案,计算性能实现3倍加速,能效比提高了5倍。  相似文献   

9.
本文研究了基于查找表(Look Up Table,LUT)的方式进行FIR滤波器的设计,采用FPGA的方法来硬件实现FIR滤波器。与普通滤波器相比,基于查找表的FIR滤波器具有速度快、占用资源少的特点。采用流水线技术对加法运算进行处理,速度进一步提高。实验结果证明本设计有效。  相似文献   

10.
吴斌  杨波  叶明 《信息通信》2012,(2):26-28
低密度奇偶校验(LDPC)码是基于稀疏校验矩阵的线性分组码,由于其优越的性能以及译码硬件实现的低复杂度,一直受到广泛关注.基于FPGA的译码硬件实现LDPC译码嚣的主要任务之一就是数据量化问题的解决.数据运算单元是整个译码器的核心,数据能否合理量化这一问题与该译码算法的可靠性、硬件电路的可实现性和译码性能密切相关.本文首先进行了译码算法的资源消耗分析,在综合考虑资源消耗和运算精度的基础上提出合理的量化数据选择,同时就量化数据位对译码器性能的影响进行了仿真.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号