期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

金尚柏《延边大学学报(自然科学版)》2006,32(3):204-207

PowerPC G4系列以后的CPU中增加了SIMD扩展指令集,并命名为AltiVec技术,利用这些指令可以显著提高需要处理大量数据运算的软件的效率.本文提出了一种基于AltiVec技术优化矩阵乘积运算的改进算法,实验结果表明此算法是行之有效的. 相似文献

2.

基于FPGA的嵌入式CPU的VHDL建模和设计

周荣《浙江工业大学学报》2006,34(5):550-553,588

目前，基于FPGA的嵌入式CPU核的设计已成为SOC设计的重要部分．提出一种嵌入式CPU核的VHDL行为建模方法，与传统的基于电路结构建模的CPU核的设计方法不同，新的VHDL建摸方法是基于指令对数据流流通控制行为的描述．使用这种方法可以快速建创建兼容已有指令集的CPU核的VHDL模型，易于修改，提高设计效率．同时介绍了兼容8051单片机指令的CPU的VHDL设计例子，并给出使用ISE7．1工具在Xilinx的Sparten 3器件上进行综合实现CPU核设计的结果和使用Modesim6．0工具进行指令操作仿真的结果．仿真的结果显示该建模方法是可行的，设计的CPU核可以运行在125MHz时钟工作频率，指令执行速度超过40MIPS．相似文献

3.

RISC微处理器的EDA设计与应用 总被引：1，自引：0，他引：1

陈智勇黄廷辉朱国魂《桂林电子科技大学学报》2003,23(2):59-62

在采用定长 CPU周期设计的 RISC微处理器解释指令时 ,为了保证 CPU周期的完整性而降低了 CPU的效率。通过异步信号将节拍电位寄存器复位的不定长 CPU周期设计的 RISC微处理器 ,在运行相同的机器语言程序时 ,明显快于采用定长 CPU周期的微处理器。相似文献

4.

RISC微处理器的EDA设计与应用

陈智勇黄廷辉朱国魂《桂林电子工业学院学报》2003,23(2):59-62

在采用定长CPU周期设计的RISC微处理器解释指令时，为了保证CPU周期的完整性而降低了CPU的效率。通过异步信号将节拍电位寄存器复位的不定长CPU周期设计的RISC微处理器，在运行相同的机器语言程序时，明显快于采用定长CPU周期的微处理器。相似文献

5.

一种SOC微处理器IP核的优化设计 总被引：1，自引：0，他引：1

张国萍邓先灿《杭州电子科技大学学报》2006,26(1):63-66

该文提出了多种改善微处理器设计的优化方法.在系统结构上,采用四级流水结构,改善了微处理器的执行效率;为了解决数据相关问题,采用了bypass技术,并进一步提高了流水线的效率.在CPU结构上,采用纯组合逻辑电路和改进的ALU算法,来提高处理器的速度.最后,对该CPU核完成了仿真和综合,并在FPGA上成功地实现.实验结果表明设计的SOC处理器在指令上与通用的PIC16C57的处理器兼容,而执行效率为其4倍,系统时钟可达到40MHz以上. 相似文献

6.

单片机指令系统仿真研究与实现 总被引：1，自引：0，他引：1

廖桂华王宜怀《军民两用技术与产品》2008,(2):45-48

指令系统的仿真是单片机仿真软件开发的基础。给出了可进行CPU配置的指令仿真系统设计方案,通过分析内核CPU配置文件,设计指令获取算法、指令执行函数和指令解析函数来完成对其的仿真。实验结果表明:指令系统仿真在程序运行时间、指令功能、指令指针的移动、指针偏移量、寄存器值方面能较好地逼近真正硬件平台。相似文献

7.

多发射多流水线结构数字信号处理器设计

陈超张盛兵《西北工业大学学报》2013,(3):422-428

zw100处理器是西北工业大学和某研究所共同研制的采用MCU-DSP相融合架构的32位数字信号处理器。提出一种多发射多流水线结构来进行数字信号处理器的微体系结构设计,使该处理器同时具备了RISC load/store体系结构、DSP的计算能力和MCU的实时控制能力等特点。从zw100处理器指令集设计出发,首先介绍了该处理器架构和主要单元,然后重点讨论了基于多发射多流水线结构的指令调度策略、相邻指令耦合关系与发射机制、多发射条件下流水线相关的处理等。最后,对设计进行了仿真验证,并给出综合结果。目前,该处理器已采用TSMC 65nm CMOS工艺流片成功,频率达到500 MHz,达到2G MAC/s的运算能力,性能指标满足设计要求。相似文献

8.

多态并行阵列机中处理单元的设计与实现

《西安邮电学院学报》2015,(3):21-28

针对新型多态并行阵列机,设计一种专用处理单元。该处理单元采用四级流水线的超长指令字结构,指令系统采用无寄存器文件的直接寻址方式,加入独有的阻塞-非阻塞模式和邻接共享存储实现分布式指令并行和流处理运算,使用特殊指令完成PE间通信以及MIMD和SIMD的快速切换。实验结果表明,该处理单元能够实现运算模式分区并发执行和切换,工作最大频率可达167MHz.。相似文献

9.

基于VC++的梯形图编程软件开发技术

史先桂《成都电子机械高等专科学校学报》2017,20(2)

介绍一种采用VC++2010开发梯形图编程工具软件的设计与实现方法.利用面向对象的方法,进行系统类层次结构的设计,使系统具有更强的执行效率、开放性和可扩展性;采用链表结构存储梯形图,能够方便、灵活地进行动态编辑操作;运行程序将梯形图图形语言转换为链表指令程序,通过高效逻辑和运算管理链表指令快速执行. 相似文献

10.

基于FPGA的8位CPU设计

马彦勤马辉《中原工学院学报》2014,(4):75-78

基于FPGA和电子设计自动化技术,设计了一个8位CPU,其功能模块包括取指功能部件、指令译码功能部件、指令执行功能部件、时序信号处理功能部件等.利用VHDL语言完成各功能部件的设计和仿真验证,在顶层文件建立各模块的连接.仿真结果表明,其功能达到了设计要求. 相似文献

11.

探索一号小卫星星务计算机CPU自检方法

李香崔刚杨孝宗张刚《哈尔滨工业大学学报》2001,33(3):273-275

通过对Intel386^TMEX指令系统的分析,提出了一种基于指令系统的应用于探索一号小卫星星务计算机系统的CPU自检方法,对于指令丰富,寻址方式复杂的Intel386^TMEX微处理器要想测试其全部指令（包括各种寻址方式的组合）,自检程序会变得很长,执行时间也相应增加,分析各类指令的指令编码后发现各类指令编码具有一定规律且相互间有联系;在此基础上结合CPU的译码规则,通过测试少量指令便可覆盖全部指令,从而提高了检测效率。相似文献

12.

视频处理器软硬件协同设计

俞国军刘鹏姚庆栋蒋志迪蔡卫光《浙江大学学报(工学版)》2006,40(7):1117-1122

为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器（RISC/DSP）混合体系结构的媒体处理器：浙大数芯（MD32）,给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%. 相似文献

13.

基于指令统计的SOPC硬件资源优化技术

李树盛杨碧波《中北大学学报(自然科学版)》2005,26(6):408-412

在可编程片上系统（System on Programmable Chip，SOPC）中，特定应用程序中用到的指令是软核CPU指令集的子集，如果在FPGA中实现软核CPU时仅保留应用程序用到的指令子集，将可以提高硬件资源利用率．文中分析了对应用程序进行指令统计的方法，重点介绍了通过修改HDL文件对8051软核CPU指令集进行删减和扩充的技术．采用这一技术设计的SOPC芯片硬件资源利用率得到了显著的提高，降低了系统成本，适用于可编程逻辑资源受到限制和对成本敏感的嵌入式应用中．相似文献

14.

二维矩阵卷积的并行计算方法

张军阳郭阳扈啸《浙江大学学报(工学版)》2018,52(3):515-523

为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍. 相似文献

15.

GPU-accelerated phase field simulation of directional solidification

GAO Ang HU YanSu WANG ZhiJun MU DeJun LI JunJie WANG JinCheng 《中国科学:技术科学(英文版)》2014,57(6):1191-1197

The phase field simulation has been actively studied as a powerful method to investigate the microstructural evolution during the solidification.However,it is a great challenge to perform the phase field simulation in large length and time scale.The developed graphics processing unit(GPU)calculation is used in the phase filed simulation,greatly accelerating the calculation efficiency.The results show that the computation with GPU is about 36 times faster than that with a single Central Processing Unit(CPU)core.It provides the feasibility of the GPU-accelerated phase field simulation on a desktop computer.The GPU-accelerated strategy will bring a new opportunity to the application of phase field simulation. 相似文献

16.

OLAP中基于GPU的中位数计算算法

吴振鹏张健范星奇李翠平《山东大学学报(工学版)》2021,51(3):7-14

针对联机分析处理(online analytical processing,OLAP)中的整体型聚集函数中位数,提出基于图形处理单元(graphics processing unit,GPU)的GPU-Median算法,通过对数据进行划分,分段排序,不断裁剪全局中位数之前的数据,对未裁剪的数据进行合并,得到最终的中位数... 相似文献

17.

HEVC运动估计中SAD算法的动态可重构实现

蒋林武鑫崔继兴谢晓燕山蕊《北京邮电大学学报》2018,41(4):37-43

高效视频编码（HEVC）标准中引入的不对称分割模式导致运动估计算法中绝对差值和（SAD）运算量成倍增加.为了提高运动估计算法的执行效率,方便用户进行自主选择,设计了同时支持不对称分割模式开启和关闭2种执行模式以及执行模式间自由切换的可重构阵列结构.为了满足用户要求编码速度的同时,最大限度地利用可重构阵列处理器的资源,在阵列结构为16×16个处理元中通过加载16×8、16×4以及16×2个处理元的指令来进行阵列规模的动态重构,采用指令下发的方式将不同的指令发送到对应处理元进行相应配置.实验结果表明,所提出的可重构实现方式在硬件资源占用量接近条件下,相较于流水化实现处理时间减少了约35%,吞吐量提高了约0.4倍.该实现具有较高的执行效率,能够进行执行模式与阵列规模的切换,具有较好的灵活性. 相似文献

18.

基于BP神经网络的处理器节能技术研究

郭兵张鹏博沈艳黄义纯曹亚波《四川大学学报(工程科学版)》2018,50(1):107-112

研究芯片功耗中动态功耗部分,针对传统动态节能技术动态电压与频率调节（dynamic voltage and frequency scaling,DVFS）技术未能考虑预测CPU未来阶段行为的不足,提出BP-DVFS节能策略。为了提高下一阶段CPU利用率的预测准确性,更准确地对CPU进行动态调频进而降低其运行功耗。构建了一种FPU-CPU（forward predict utilization CPU）模型。模型假设下一时间段CPU利用率与CPU运行资源有关的事件特征量存在非线性函数关系,从处理器运行时环境出发提取出与CPU资源紧密相关的5个特征量进行度量,采用BP神经网络进行拟合训练。用训练后得到的神经网络预测CPU下一阶段的利用率,进行CPU处理不同类型任务程序的功耗仿真实验。并在相同实验条件下与常用的3种CPU调频策略实验结果进行对比。实验结果表明,在CPU处理不同类型任务程序时,采用BP-DVFS策略进行调频的CPU功耗都低于其他3种策略进行调频的CPU功耗。通过实验验证,本文提出的方法提高了预测CPU利用率的准确度,降低了CPU运行时功耗。同时验证了假设的合理性与有效性以及此方法实现CPU低功耗运行是有效的。相似文献

19.

基于指令回收的低功耗循环分支折合技术

孟建熠严晓浪葛海通《浙江大学学报(工学版)》2010,44(4):632-638

在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%. 相似文献

20.

ABC—90jr.指令执行效率评价

李维刚方滨兴《哈尔滨工业大学学报》1998,30(1):61-64

ＡＢＣ－９０ｊｒ．是正在研制一台带有１６个结点的ＳＩＭＤ阵列计算机的模型机,该机采用了ＲＩＳＣ控制技术,ＡＢＣ－９０ｊｒ模拟器是为其设计的指令级模拟器,通过对ＡＢ９ｊｒ．指令系统的研究和在模拟器上运行典型的应用程序,给出了该模型机的指令的执行效率及吞吐率,分析了不同类型的相关对指令的执行效率的影响,同时,指出了一个优化地编译器对指令执行效率的影响。相似文献