首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
PowerPC G4系列以后的CPU中增加了SIMD扩展指令集,并命名为AltiVec技术,利用这些指令可以显著提高需要处理大量数据运算的软件的效率.本文提出了一种基于AltiVec技术优化矩阵乘积运算的改进算法,实验结果表明此算法是行之有效的.  相似文献   

2.
周荣 《浙江工业大学学报》2006,34(5):550-553,588
目前,基于FPGA的嵌入式CPU核的设计已成为SOC设计的重要部分.提出一种嵌入式CPU核的VHDL行为建模方法,与传统的基于电路结构建模的CPU核的设计方法不同,新的VHDL建摸方法是基于指令对数据流流通控制行为的描述.使用这种方法可以快速建创建兼容已有指令集的CPU核的VHDL模型,易于修改,提高设计效率.同时介绍了兼容8051单片机指令的CPU的VHDL设计例子,并给出使用ISE7.1工具在Xilinx的Sparten 3器件上进行综合实现CPU核设计的结果和使用Modesim6.0工具进行指令操作仿真的结果.仿真的结果显示该建模方法是可行的,设计的CPU核可以运行在125MHz时钟工作频率,指令执行速度超过40MIPS.  相似文献   

3.
RISC微处理器的EDA设计与应用   总被引:1,自引:0,他引:1  
在采用定长 CPU周期设计的 RISC微处理器解释指令时 ,为了保证 CPU周期的完整性而降低了 CPU的效率。通过异步信号将节拍电位寄存器复位的不定长 CPU周期设计的 RISC微处理器 ,在运行相同的机器语言程序时 ,明显快于采用定长 CPU周期的微处理器。  相似文献   

4.
在采用定长CPU周期设计的RISC微处理器解释指令时,为了保证CPU周期的完整性而降低了CPU的效率。通过异步信号将节拍电位寄存器复位的不定长CPU周期设计的RISC微处理器,在运行相同的机器语言程序时,明显快于采用定长CPU周期的微处理器。  相似文献   

5.
一种SOC微处理器IP核的优化设计   总被引:1,自引:0,他引:1  
该文提出了多种改善微处理器设计的优化方法.在系统结构上,采用四级流水结构,改善了微处理器的执行效率;为了解决数据相关问题,采用了bypass技术,并进一步提高了流水线的效率.在CPU结构上,采用纯组合逻辑电路和改进的ALU算法,来提高处理器的速度.最后,对该CPU核完成了仿真和综合,并在FPGA上成功地实现.实验结果表明设计的SOC处理器在指令上与通用的PIC16C57的处理器兼容,而执行效率为其4倍,系统时钟可达到40MHz以上.  相似文献   

6.
单片机指令系统仿真研究与实现   总被引:1,自引:0,他引:1  
指令系统的仿真是单片机仿真软件开发的基础。给出了可进行CPU配置的指令仿真系统设计方案,通过分析内核CPU配置文件,设计指令获取算法、指令执行函数和指令解析函数来完成对其的仿真。实验结果表明:指令系统仿真在程序运行时间、指令功能、指令指针的移动、指针偏移量、寄存器值方面能较好地逼近真正硬件平台。  相似文献   

7.
zw100处理器是西北工业大学和某研究所共同研制的采用MCU-DSP相融合架构的32位数字信号处理器。提出一种多发射多流水线结构来进行数字信号处理器的微体系结构设计,使该处理器同时具备了RISC load/store体系结构、DSP的计算能力和MCU的实时控制能力等特点。从zw100处理器指令集设计出发,首先介绍了该处理器架构和主要单元,然后重点讨论了基于多发射多流水线结构的指令调度策略、相邻指令耦合关系与发射机制、多发射条件下流水线相关的处理等。最后,对设计进行了仿真验证,并给出综合结果。目前,该处理器已采用TSMC 65nm CMOS工艺流片成功,频率达到500 MHz,达到2G MAC/s的运算能力,性能指标满足设计要求。  相似文献   

8.
针对新型多态并行阵列机,设计一种专用处理单元。该处理单元采用四级流水线的超长指令字结构,指令系统采用无寄存器文件的直接寻址方式,加入独有的阻塞-非阻塞模式和邻接共享存储实现分布式指令并行和流处理运算,使用特殊指令完成PE间通信以及MIMD和SIMD的快速切换。实验结果表明,该处理单元能够实现运算模式分区并发执行和切换,工作最大频率可达167MHz.。  相似文献   

9.
介绍一种采用VC++2010开发梯形图编程工具软件的设计与实现方法.利用面向对象的方法,进行系统类层次结构的设计,使系统具有更强的执行效率、开放性和可扩展性;采用链表结构存储梯形图,能够方便、灵活地进行动态编辑操作;运行程序将梯形图图形语言转换为链表指令程序,通过高效逻辑和运算管理链表指令快速执行.  相似文献   

10.
基于FPGA和电子设计自动化技术,设计了一个8位CPU,其功能模块包括取指功能部件、指令译码功能部件、指令执行功能部件、时序信号处理功能部件等.利用VHDL语言完成各功能部件的设计和仿真验证,在顶层文件建立各模块的连接.仿真结果表明,其功能达到了设计要求.  相似文献   

11.
通过对Intel386^TMEX指令系统的分析,提出了一种基于指令系统的应用于探索一号小卫星星务计算机系统的CPU自检方法,对于指令丰富,寻址方式复杂的Intel386^TMEX微处理器要想测试其全部指令(包括各种寻址方式的组合),自检程序会变得很长,执行时间也相应增加,分析各类指令的指令编码后发现各类指令编码具有一定规律且相互间有联系;在此基础上结合CPU的译码规则,通过测试少量指令便可覆盖全部指令,从而提高了检测效率。  相似文献   

12.
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%.  相似文献   

13.
在可编程片上系统(System on Programmable Chip,SOPC)中,特定应用程序中用到的指令是软核CPU指令集的子集,如果在FPGA中实现软核CPU时仅保留应用程序用到的指令子集,将可以提高硬件资源利用率.文中分析了对应用程序进行指令统计的方法,重点介绍了通过修改HDL文件对8051软核CPU指令集进行删减和扩充的技术.采用这一技术设计的SOPC芯片硬件资源利用率得到了显著的提高,降低了系统成本,适用于可编程逻辑资源受到限制和对成本敏感的嵌入式应用中.  相似文献   

14.
为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍.  相似文献   

15.
The phase field simulation has been actively studied as a powerful method to investigate the microstructural evolution during the solidification.However,it is a great challenge to perform the phase field simulation in large length and time scale.The developed graphics processing unit(GPU)calculation is used in the phase filed simulation,greatly accelerating the calculation efficiency.The results show that the computation with GPU is about 36 times faster than that with a single Central Processing Unit(CPU)core.It provides the feasibility of the GPU-accelerated phase field simulation on a desktop computer.The GPU-accelerated strategy will bring a new opportunity to the application of phase field simulation.  相似文献   

16.
针对联机分析处理(online analytical processing,OLAP)中的整体型聚集函数中位数,提出基于图形处理单元(graphics processing unit,GPU)的GPU-Median算法,通过对数据进行划分,分段排序,不断裁剪全局中位数之前的数据,对未裁剪的数据进行合并,得到最终的中位数...  相似文献   

17.
高效视频编码(HEVC)标准中引入的不对称分割模式导致运动估计算法中绝对差值和(SAD)运算量成倍增加.为了提高运动估计算法的执行效率,方便用户进行自主选择,设计了同时支持不对称分割模式开启和关闭2种执行模式以及执行模式间自由切换的可重构阵列结构.为了满足用户要求编码速度的同时,最大限度地利用可重构阵列处理器的资源,在阵列结构为16×16个处理元中通过加载16×8、16×4以及16×2个处理元的指令来进行阵列规模的动态重构,采用指令下发的方式将不同的指令发送到对应处理元进行相应配置.实验结果表明,所提出的可重构实现方式在硬件资源占用量接近条件下,相较于流水化实现处理时间减少了约35%,吞吐量提高了约0.4倍.该实现具有较高的执行效率,能够进行执行模式与阵列规模的切换,具有较好的灵活性.  相似文献   

18.
研究芯片功耗中动态功耗部分,针对传统动态节能技术动态电压与频率调节(dynamic voltage and frequency scaling,DVFS)技术未能考虑预测CPU未来阶段行为的不足,提出BP-DVFS节能策略。为了提高下一阶段CPU利用率的预测准确性,更准确地对CPU进行动态调频进而降低其运行功耗。构建了一种FPU-CPU(forward predict utilization CPU)模型。模型假设下一时间段CPU利用率与CPU运行资源有关的事件特征量存在非线性函数关系,从处理器运行时环境出发提取出与CPU资源紧密相关的5个特征量进行度量,采用BP神经网络进行拟合训练。用训练后得到的神经网络预测CPU下一阶段的利用率,进行CPU处理不同类型任务程序的功耗仿真实验。并在相同实验条件下与常用的3种CPU调频策略实验结果进行对比。实验结果表明,在CPU处理不同类型任务程序时,采用BP-DVFS策略进行调频的CPU功耗都低于其他3种策略进行调频的CPU功耗。通过实验验证,本文提出的方法提高了预测CPU利用率的准确度,降低了CPU运行时功耗。同时验证了假设的合理性与有效性以及此方法实现CPU低功耗运行是有效的。  相似文献   

19.
在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%.  相似文献   

20.
ABC-90jr.是正在研制一台带有16个结点的SIMD阵列计算机的模型机,该机采用了RISC控制技术,ABC-90jr模拟器是为其设计的指令级模拟器,通过对AB9jr.指令系统的研究和在模拟器上运行典型的应用程序,给出了该模型机的指令的执行效率及吞吐率,分析了不同类型的相关对指令的执行效率的影响,同时,指出了一个优化地编译器对指令执行效率的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号