首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 250 毫秒
1.
针对一般稀疏矩阵-矩阵乘法(SpGEMM)的性能问题,提出了一种基于任务分类和低延迟散列表的图形处理器上的加速SpGEMM算法RBSPARSE.该算法由一种低成本子任务复杂度预分析方法和一种低延迟共享内存上的散列表的方法组成,以达到最大效率.通过解决负载均衡和内存延迟问题,RBSPARSE可以显著减少计算的总时间.比较了RBSparse和BHSparse,前者是最快的SpGEMM算法,结果表明RBSparse的性能是BHSparse的平均3.1倍,在最佳情况下可达到14.49倍.  相似文献   

2.
在FPU的设计中,乘法运算电路是设计高精度高速度的乘法电路的重要部分,对提高整个FPU的性能具有重要的意义。通过对浮点处理单元(FPU)的体系结构的分析,比较了速度和规模分析并行通用乘法器之间的优缺点,结合FPU整体设计以及兼顾速度和规模,提出一种不同于通用乘法器设计的方法。该方法采用指数、尾数两条数据通道,用基-4的Booth算法和桶形移位寄存器,通过迭代完成乘法计算,并用VerilogHDL语言编写模块,用Modelsim进行仿真验证。这种方法速度快、占用硬件资源少,适于在FPU中实现,也可以做为一个独立的乘法器使用。  相似文献   

3.
FPU中一种高速乘法运算电路的设计与实现   总被引:1,自引:0,他引:1  
在FPU的设计中,乘法运算电路是设计高精度高速度的乘法电路的重要部分,对提高整个FPU的性能具有重要的意义。通过对浮点处理单元(FPU)的体系结构的分析,比较了速度和规模分析并行通用乘法器之间的优缺点,结合FPU整体设计以及兼顾速度和规模,提出一种不同于通用乘法器设计的方法。该方法采用指数、尾数两条数据通道,用基-4的Booth算法和桶形移位寄存器,通过迭代完成乘法计算,并用VerilogHDL语言编写模块。用Modelsim进行仿真验证。这种方法速度快、占用硬件资源少,适于在FPU中实现,也可以做为一个独立的乘法器使用。  相似文献   

4.
本文分析介绍了几种基本乘法器的原理,它的实现基础是1-digit×1-digit乘法和多操作数加法。大多数FPGA系列包括快速实现和成本效益好的乘法器的基本元件。通过硬件描述语言分别对几种乘法器进行了FPGA设计与实现,最后从运算速度、所占用逻辑资源以及操作数长度等方面对乘法器的性能进行了分析和比较。  相似文献   

5.
在过程控制、图像处理等应用领域中需要用到大量的矩阵乘法操作,并且矩阵乘法计算性能是系统性能的关键因素。本文根据矩阵相乘的特点,提出了带状划分的矩阵相乘的并行算法。同时着重分析和推导了当并行机的处理器个数小于和远小于矩阵规模的情况下实现快速的矩阵乘法。  相似文献   

6.
在基于FPGA的对称型FIR数字滤波器设计中,为了提高速度和运行效率,提出了使用线性相位结构和加法树乘法器的方法,并利用Altera公司的FPGA开发软件QuartusⅡ进行仿真实现.实验结果表明,该方法和传统的移位相加乘法器和直接结构的FIR滤波器相比,这种方式在性能上有着明显的优势,具有使用逻辑单元少,执行效率高的特点.可以在以后的设计中作为子模块使用.  相似文献   

7.
针对现有的单精度浮点乘法器存在运算速度慢的问题,该文设计了一种融合Karatsuba算法和Vedic算法两者优点的快速单精度浮点乘法器。该文利用Karatsuba算法减少单精度浮点乘法器的乘法运算次数,将24 bit尾数的乘法运算分解为少位数乘法运算,获得基于3 bit和4 bit的尾数乘法架构;进一步地,利用Vedic算法对单精度浮点乘法器的尾数乘法架构进行优化,利用复杂度低、速度快的加法器实现了Karatsuba算法分解后的3 bit和4 bit的两个基本乘法运算,提高了运算速度。仿真及FPGA验证结果表明,该文设计的单精度浮点乘法器相对于基于传统的Karatsuba算法的单精度浮点乘法器、基于Vedic算法的单精度浮点乘法器,其最大运行时钟频率分别提高了约5倍和2倍。  相似文献   

8.
一种高性能、低功耗乘法器的设计   总被引:3,自引:0,他引:3  
基于标准单元方法设计并实现支持单指令流多数据流(SIMD)计算的16 bit×8 bit乘法器.分析乘法运算时延的分布,采用Wallace树形结构实现Booth乘法器,最终进位传递计算采用从左到右免除进位(LRCF)算法,使最高位(MSB)部分的进位传递计算与部分积相加运算的并行重叠进行,以提高乘法运算的并行度,降低硬件复杂度和功耗.在0.18μm工艺标准单元库的支持下,使用电子设计辅助(EDA)工具,版图实现了该乘法器.利用版图得到的线负载模型信息对门级网表进行分析,在工作电压为1.62 V,125℃时,该乘法器速度为2.80 ns,功耗为0.089 mW/MHz.  相似文献   

9.
很多实际应用问题经常被归结为稀疏矩阵的计算,文中讨论了稀疏矩阵的压缩存储算法,稀疏矩阵中的元素采用三元组表示法作为它的存储结构。  相似文献   

10.
提出了一种基于改进进位链的FPGA逻辑单元结构,并用4×4二进制乘法器进行了验证.仿真实验表明,新型逻辑单元结构具有较高性能,实现乘法器只需要18个逻辑单元,而CyclonII器件需要39个逻辑单元,因此新型的逻辑单元性能明显优于目前商用的FPGA.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号