首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
张坤宁  赵烁  何虎  邓宁  杨旭 《计算机工程》2021,47(4):153-157
为提高卷积神经网络(CNN)的计算效率和能效,以8 bit定点数据作为输入,设计一个支持激活、批标准化以及池化等CNN网络中常见计算类型的卷积加速器,优化循环计算顺序并将其与数据复用技术相结合,以提高卷积计算的效率。基于软硬件协同设计思想,构建包含RISC-V处理器和卷积加速器的SoC系统,RISC-V处理器基于开源的指令集标准,可以根据具体的设计需求扩展指令功能。将该SoC系统部署在Xilinx ZCU102开发板上,RISC-V处理器和卷积加速器分别工作在100 MHz和300 MHz频率下,测试结果表明,该加速器的算力达到153.6 GOP/s,运行VGG16网络进行图片推理计算时加速效果较好。  相似文献   

2.
为了解决数字VLSI实现BP网络时会引起矩阵转置和处理器内部数据通信的问题,提高可编程处理器的并行度,本文从硬件实现的角度,基于BP网络的算法特点,对这两个问题进行分析,设计了一种适于BP网络的并行度较高的可编程数字处理器的体系结构.该处理器基于分布式存储的SIMD结构,采用一维脉动阵列实现矩阵转置以及全联通的数据通路实现处理器的内部数据通信,减小这两方面引起的开销.该处理器在FPGA上进行了功能仿真,时钟频率为45MHz,与PC机、DSP、专用芯片等进行比较,实验结果表明BP网络在该处理器上运行可以达到较高的速度.  相似文献   

3.
《计算机与网络》2010,(1):16-16
铭碹GTS250终结者1024M显卡为非公版设计,核心与显存部分为分离式供电模块。该显卡采用55纳米G92显示核心,拥有128个流处理器和16个光栅处理器,支持DirectX10和ShaderMode14.0。散热方面。显卡使用双风扇热管散热器。显存方面使用了0.8nsGDDR3显存颗粒.组成了1024MB/256bit显存规格.显卡默认出厂频率为738/2200MHz。值得一提的是,  相似文献   

4.
面向多输入多输出(MIMO)正交频分复用(OFDM)系统,设计一种可配置的FFT/IFFT运算处理器。给出多通路流水线FFT/IFFT处理器架构,通过一个输入数据重排模块,实现来自4条信道的多通路数据同时计算,支持不同数据率的FFT/IFFT运算。性能分析表明,在SMIC 0.13 μm工艺下,该处理器的最高时钟频率可达125 MHz,面积达到1.800×1.500 μm2。  相似文献   

5.
研究网络处理器中的搜索算法,提出一种基于Patricia树的无回溯搜索算法,并进行仿真和评估分析。该算法被用于中科院计算所的网络处理器的搜索引擎的设计中,该搜索引擎可以运行在155.9 MHz的XC2VP30 FPGA上,占用421个LUT,当频率为100 MHz时,每秒可以执行约7 000 000次搜索操作,实现了资源消耗和性能的折中。  相似文献   

6.
入门级产品AcerAltos 330是Acer公司的工作组级服务器,它采用Pentium II处理器,支持512KB高速缓存,EDO/ECC内存提供自动检错和纠错功能,以保证数据传输的准确和可靠。330适用于小型商用,也可满足2D/3D图形工作需求。康柏的Prosignia 200系列服务器属于入门级的工作组服务器,它拥有全面的智能特性和工具,安装和维护都很简单,价格仅相当于台式机。它采用233MHz至300MHz P II处理器,PCI系统结构,EDO/ECC内存,有5个内部扩展槽。方正圆明1000B是方正针对中小网络用户而推出的基于100MHz系统总线频率技术的工作组级服务器产品,它支持从233MHz到400MHz、甚至到Intel新近才推出的450MHz的PII处理器。它采用高度集成化  相似文献   

7.
源龌8800 GT GeForce9800GT的流处理器数量、纹理单元和光栅单元分别为112个、56个和16个,核心频率、显存频率和流处理器频率分别为600MHz/1800MHz/1500MHz。不难看出,在主要硬件规格上,它与GeForce8800GT是完全一致的。  相似文献   

8.
ENGTX280/G/HTDP/1G显卡采用全新的GTX280核心,拥有240个流处理器、支持512bit显存位宽以及令人震惊的14亿个内建晶体管,性能达到上一代9800GTX的两倍。华硕ENGTX280/G/HTDP/1G显卡采用NVIDIA公版设计,频率高达600MHz/2214MHz,支持DirectX  相似文献   

9.
通过对嵌入式处理器进行多媒体处理能力的扩展可增强其对多媒体数据的处理能力。以 32 bit龙腾嵌入式处理器为基础 ,研究 AltiVec技术以及超标量技术 ,设计了该处理器中支持 AltiVec技术的多媒体协处理单元。该单元采用五级流水线 ,将指令动态调度技术分配到不同的流水线中 ,在提高处理性能的同时保证了设计频率。通过多媒体基准程序测试 ,该单元的指令 IPC为 1. 2, SMIC0. 18μm工艺库下 ,频率为 350 MHz,该协处理单元提高了龙腾处理器的性能。  相似文献   

10.
邓斐 《微型计算机》2010,(18):55-55
影驰GTX465黑将非公版显卡的核心频率、显存频率和流处理器频率分别为608MHz.3206MHz、1215MHz.和公版保持一致。它采用5+1相供电设计。该显卡PCB的正面具备8颗规格为128MB/32-bil的GDDR5显存,组成1GB/256.bit规格。  相似文献   

11.
The stream architecture is a novel microprocessor architecture with wide application potential. It is critical to study how to use the stream architecture to accelerate scientific computing programs. However, existing stream processors and stream programming languages are not designed for scientific computing. To address this issue, we design and implement a 64-bit stream processor, Fei Teng 64 (FT64), which has a peak performance of 16 Gflops. FT64 supports two kinds of communications, message passing and stream communications, based on which, an interconnection architecture is designed for a FT64-based high-performance computer. This high-performance computer contains multiple modules, with each module containing eight FT64s. We also design a novel stream programming language, Stream Fortran 95 (SF95), together with the compiler SF95Compiler, so as to facilitate the development of scientific applications. We test nine typical scientific application kernels on our FT64 platform to evaluate this design. The results demonstrate the effectiveness and efficiency of FT64 and its compiler for scientific computing.  相似文献   

12.
梅森素数并行求解算法的流式实现   总被引:1,自引:0,他引:1       下载免费PDF全文
本文以数论中的Lucas-Lehmer检验法为基础,提出了梅森素数并行求解算法在FT64流处理器上的流式实现,并通过重设流记录的大小对程序进行了优化。评测数据表明,在FT64上运行该应用的时间平均比1.5GHz Itanium2快2.5倍。本文为梅森素数求解问题寻找了一条可行的加速方法,同时证实了流体系结构在高性能计算领域的极大潜力。本文提出的流式算法以及各种优化手段,对于其他科学计算领域中的计算密集型问题在流体系结构上的映射有极大的借鉴意义。  相似文献   

13.
In 0.35-micron standard-cell CMOS technology, this IC core design supports a data rate of up to 400 Mbps and includes circuit blocks that operate at a clock frequency of 400 MHz  相似文献   

14.
存储系统是通用处理器在处理流应用时的瓶颈。该文基于FT64流处理器体系结构,提出一种面向流应用的流寄存器文件结构设计方法和数据传输机制,分析它在FT64中的作用。通过采用大容量、高带宽、虚拟多端口的存储器,将大部分流数据存取操作限制在寄存器文件这一层次,减少了主存压力。实验结果表明,该结构能很好地适应流应用需求。  相似文献   

15.
视频在网络传输过程中常常由于UDP本身不可靠的性质造成数据包丢失的问题。为了解决这一问题,本文针对基于UDP的网络视频传输与同步展开了研究。首先本文介绍了传输层UDP协议的基本原理;其次,针对网络视频传输对于实时性和连续性等方面的要求本文提出了一种网络视频数据的传输模型;然后,为了解决在互联网中由于传输的延迟随机性所导致的数据同步问题,本文提出了一种时间戳来解决视频同步问题的方法,在视频数据的发送端,通过为数据传输设定一个参考时钟,在实际生成数据流时根据参考时钟上的时间将数据块与时间戳绑定;在视频数据的接收端,通过读取数据块中的时间戳值,并参考当前参考时钟上的时间来进行视频数据帧重组从而解决了视频数据传输不同步的问题..  相似文献   

16.
为实现UUV系统对不同的探测系统外围传感设备信号进行快速处理和控制,利用DSP的数据高速处理能力和FPGA的高速接口数据交互能力,设计了基于高速数字信号处理器(DSP)的UUV目标探测通用处理系统;该系统采用了XC7Z045T芯片扩展TMS320C6678芯片的硬件架构设计,通过配置SPI总线进行编程设计,产生250 MHz、156.25 MHz、100 MHz和50 MHz的时钟分配设计方案,支持2路百兆以太网接口通信和16路RS232串口数据的发送及接收,并可根据实际需求扩展CAN通信以及RS485通信;经实验测试,该系统设计方案可完成百兆以太网到目标探测传感设备的数据传输,实现对不同RS232传感器设备进行地址定义、读写和数据通信操作;结果表明,该系统设计方案达到了对以太网传感设备和不同RS232外围传感器快速处理和控制的目的,实现了基于DSP的UUV目标探测通用系统设计。  相似文献   

17.
FT64是一款自主研发的面向科学计算的64位流处理器。本文介绍了该处理器的微体系结构及其编程模型,重点讨论了片内流寄存器文件实现的关键技术;该流寄存器文件具有硬件代价低、支持多流虚拟并发访问等特性。测试结果表明,流寄存器文件满足某些类科学计算与工程应用的带宽需求。  相似文献   

18.

The paper presents the wide range phase-locked loop design for serializer. Serializer converts the 16 bit parallel data into serial, thus 16 times fast clock is required to synchronize the parallel data and serial data. PLL generates 16× serial clock from the parallel clock by frequency multiplication. PLL is simulated with 0.18 µm CMOS process. Major challenge of PLL design is to achieve large dynamic range. The PLL design for large dynamic range suffers from a high jitter at lower frequency and linearity issues. Advance CSVCO has been simulated with source degeneration technique and achieve wide linear range from 14 MHz to 1.05 GHz with 99.2 % linearity. The PVT Corners simulation shows 16 MHz to 1.04 GHz output range. Average power dissipation of the proposed PLL design is 2.7 mW. Worst case Peak to peak period jitter is 13.4 ps and rms jitter is 2.6 ps for 800 MHz output frequency.

  相似文献   

19.
在研究华为海思Hi3516A进行视频编码压缩的过程中,针对其压缩码流仅支持本地保存和网络流媒体应用的局限性,提出了一种基于FPGA和以太网接口的H.264码流实时传输方案;Hi3516A视频编码端采用RAW _SOCKET原始套接字协议构建UDP帧,通过网口传输H.264压缩码流到FPGA平台;FPGA使用一片2 Gbit的DDR3作为数据缓存介质,保证网口速率的匹配和一次传输的H.264 Nalu包的完整性;利用USB2.0接口回传码流到PC进行功能测试;从模拟传输本地文件和实际传输视频两方面对系统功能进行测试;模拟传输本地文件测试中,PC端网口发送55,844,864字节本地文件到本系统,USB上位机接收的系统返回数据大小与发送数据大小相同,证明数据传输完整;实际传输视频测试中,MilkPlayer软件播放USB上位机保存的码流文件,画面流畅,无卡顿及明显丢帧,使用FFmpeg软件解码码流文件,测试表明,数据压缩比均值达143:1,与系统设定值相比,存在4%左右的误差,USB上位机12h和24 h保存接收码流测试中,数据量分别达到22.3 GB和43.5 GB,码流文件播放效果良好;因此,此系统能实现H.264码流的实时传输,满足设计要求,具有很好的实用价值.  相似文献   

20.
针对正弦信号发生器设计中,直接数字频率合成技术存在相位截断误差的问题,以神经网络为技术基础,以FPGA为硬件核心,提出了一种新型的高频正弦信号发生器设计方案,有效克服了上述问题。阐述了这种方案的工作原理、电路结构以及设计思路和方法。经过设计和仿真测试,系统的主时钟频率可以达到95 MHz且不占用ROM存储空间,输出的正弦信号为2.5 MHz时,输出信号的杂散抑制为80 dB,可见该方案资源占用率低,无相位截断,输出信号杂散小且输出频率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号