首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为了提高视频图像处理速度与硬件资源利用,针对一种基于精简指令集处理器与数字信号处理器(RISC/DSP)混合体系结构的媒体处理器:浙大数芯(MD32),给出了一种软硬件协同设计策略.所给策略结合视频处理核心算法,研究分析MPEG视频编码标准的处理过程,进行了视频处理指令扩展设计,提高了数据的并行处理能力,利用了指令内并行执行特性.为有效实现扩展指令,处理器执行级采用了可扩展流水级技术.实验结果表明,指令扩展硬件成本仅占MD32的2.7%,逆离散余弦变换实现性能比MMX/SSE指令集实现的性能分别提高31%和23%,运动补偿性能比MMX指令集实现的性能提高了40%.  相似文献   

2.
为了提高图形处理器中顶点染色器的工作效率,设计一款改进的可编程顶点染色器。设计引入适用于顶点染色器的一种专用指令集,以完成顶点染色的加减乘除等基本操作,并加入染色算法中常见的向量操作和特殊函数计算的指令,另在浮点4路单指令多数据的结构基础上加入带有旁路功能的五级宏流水线和超越函数运算单元。在工作站使用Linux环境下的QuestaSim6.5b进行功能仿真,使用Xilinx公司Virtex6-760芯片为目标器件对可编程顶点染色器进行逻辑综合。实验结果表明,该顶点染色器可以绘制出真实图形,其最大工作频率可达197MHz,顶点的处理能力可达5Mvertex/s。  相似文献   

3.
为了提高视频图像处理速度与处理器资源的利用,提出了一种基于精简指令集计算机与数字信号处理器(RISC-DSP)联合架构微处理器的反离散余弦变换(IDCT)的优化算法.基于RISC-DSP核微处理器的指令集体系结构特点,研究分析了视频图像处理中8×8的IDCT算法,将其分解为两级矩阵乘法运算的结构,并利用RISC-DSP核微处理器的多媒体指令分两步实现.实验结果表明,在RISC-DSP核微处理器上,进行一次8×8的IDCT运算仅需执行530条指令,占用存储空间1 424字节.该优化算法实时性好,占用处理器资源少,具有较强的实用性.  相似文献   

4.
32位双发射双流水线结构RISC微处理器设计   总被引:1,自引:0,他引:1  
"龙腾R2"是西北工业大学自主研制的32位嵌入式RISC微处理器,与IBM公司的Power-PC750处理器pin-to-pin兼容。综合考虑面积、功耗、实时响应以及性能要求等因素,文章提出了一种应用于嵌入式处理器微架构设计的双发射双流水线结构。该结构的核心思想是在指令流水线前端处理阶段动态检测相邻指令的先后依赖关系,预先完成双发射判断。文中首先介绍了"龙腾R2"的微体系架构,然后重点讨论了基于双发射双流水结构的指令调度策略、相邻指令耦合关系、双发射下的相关处理以及精确异常考虑等。采用M ibench基准程序完成了性能评测,综合分析结果显示,该结构对算术计算类程序流加速明显,并且电路结构清晰,易于设计验证,同时发现优化存储系统结构是提升该处理器性能的关键。文章最后对"龙腾R2"的可测试性设计以及硅物理设计等关键技术进行了论述。"龙腾R2"已流片成功,整个处理器采用SMIC 180nm CMOS工艺,芯片面积5.9 mm×6.7 mm,核心频率266 MHz,CBGA360封装。  相似文献   

5.
专用指令集处理器模型的研究   总被引:1,自引:0,他引:1  
针对现有专用指令集处理器(ASIP)模型的不足和ASIP的特点,提出了一个新型的ASIP模型——xpMODEL.它以指令行为作为设计核心,引入指令行为有限状态机IB-EFSM建立指令操作的时序调度机制,通过原语操作完成行为中对处理器资源的调用,有效地对指令的流水化操作进行了建模.在对处理器资源的建模中,利用资源库描述处理器的部件、存储和连接,并通过抽象层和行为层的部件双层建模形式有效地支持了对ASIP中专用硬件和外围部件的描述.介绍了xpMODEL对一些复杂执行机制,如forwarding技术、动态调度技术、分支预测技术和中断技术建模的支持,说明了其建模能力相对于现有的ASIP模型的优势.  相似文献   

6.
针对部分层间并行球形译码(PIPSD)算法的特点,基于超长指令字(VLIW)和单指令多数据(SIMD)混合结构的矢量处理器原型,合理安排处理器结构参数,选择合适的寄存器数目和长度。根据算法和结构的相互作用特点,挖掘算法内在的数据并行性和指令并行性,设计高效的指令集和相应的功能单元,软硬件协同优化VLIW分布,在支持多种配置的基础上尽可能减小执行周期数,提高译码吞吐率,从而设计出高效的基于专用指令集矢量处理器的可编程并行MIMO检测器。  相似文献   

7.
提出了一种嵌入式软件能耗的统计模型,包括处理器、存储器和I/O控制器等硬件单元产生的能耗,然后通过分析ARM指令周期数的规律,设计了指令周期数的相应计算方法,该方法能够快速地计算软件运行时处理器产生的能耗。在高精度指令级嵌入式软件能耗模拟器HMSim中进行了模型实现。实验结果表明,该模型的能耗计算结果与实际仪器测量结果的误差在10%以内,可较准确地反映软件实现方式对系统能耗的影响程度。  相似文献   

8.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

9.
设计了一个硬件信号量模块,可实现互斥和栅障等同步功能。与使用处理器原子操作指令相比,该方法具有指令数目少、执行效率高的优点。为提高存储器使用效率,基于便笺式存储器的结构特点,设计了具有绝对地址映射和虚拟地址映射两种寻址模式的共享程序存储器以支持指令存储空间复用。FPGA实验结果证明,该设计与传统的采用L2缓存方式相比,可以将多核处理器系统的程序性能提高14.7%。  相似文献   

10.
CORDIC算法在导航解算系统中的应用   总被引:1,自引:0,他引:1  
该文介绍了CORDIC算法原理,阐述了CORDIC算法的24位流水线结构设计与实现,给出了算法的仿真结果.根据硬件加速理论与NiosⅡ处理器特性,通过增加自定制指令的方式将CORDIC算法定制为NiosⅡ处理器指令,应用于导航解算系统中,提高导航解算系统的解算速度.  相似文献   

11.
在分析循环分支特性的基础上,提出一种基于过期指令回收的高性能低功耗循环分支折合方法.该方法通过复用指令缓冲区硬件资源实现指令回收区.在循环分支折合过程中,循环体指令直接从回收区送入流水线,降低了分支延时,消除了指令高速缓存访问.通过自适应调整回收窗口宽度,可使有限的指令缓冲区硬件资源同时满足指令缓冲与指令回收的双重需求.当投机折合进入预测盲区时关闭分支预测存储器,从而降低投机折合的动态功耗.实验数据表明,与传统循环分支折合技术相比,应用本方法的嵌入式处理器总体性能平均提升5.03%,取指单元动态功耗下降22.10%.  相似文献   

12.
zw100处理器是西北工业大学和某研究所共同研制的采用MCU-DSP相融合架构的32位数字信号处理器。提出一种多发射多流水线结构来进行数字信号处理器的微体系结构设计,使该处理器同时具备了RISC load/store体系结构、DSP的计算能力和MCU的实时控制能力等特点。从zw100处理器指令集设计出发,首先介绍了该处理器架构和主要单元,然后重点讨论了基于多发射多流水线结构的指令调度策略、相邻指令耦合关系与发射机制、多发射条件下流水线相关的处理等。最后,对设计进行了仿真验证,并给出综合结果。目前,该处理器已采用TSMC 65nm CMOS工艺流片成功,频率达到500 MHz,达到2G MAC/s的运算能力,性能指标满足设计要求。  相似文献   

13.
针对特定的单边吊床结构,根据C语言编译后生成的代码特征对控制无关Y-行为的特例——误预测指令流重新精确汇聚到正确路径进行动态检测,并利用指令重用降低分支误预测代价,对处理器性能进行优化.实现跨基本块的控制无关Y-行为动态检测,并将相关信息保存到处理器前端汇聚点表中;通过寄存器集成与存储器集成保证正确的相关性;为实现汇聚路径指令级重用,将指令分为可信与不可信两种;可信指令直接提交,不可信指令被插入到恢复缓冲中重新执行.避免了处理器清空流水线和取指重定向,降低了误预测代价.实验表明,对于不同测试基准处理器性能均有所提升,而且随着流水线的加长该机制更加有效.  相似文献   

14.
为了测试程序指令的可达性,需要搜索可触发包含该指令的控制流路径执行的测试用例。该问题可等价为路径约束满足问题的自动求解,求解结果即为验证指令可达的测试用例。为了提高自动求解的性能,在前向检测算法基础上改进设计了R_BinSearchFC算法,算法结合了边界测试数据选取和二叉树搜索技术,可有效提高对数据空间的搜索速度,并可扩展到在实数域空间的求解搜索。实验结果表明,采用了启发式学习的R_BinSearch算法可自动生成有效的测试用例,完成对指令的可达性测试。  相似文献   

15.
提出了一种基于数据流图(DFG)的专用指令生成方法.以目标应用的高级语言参考代码为起点,通过编译器前端转化为三地址中间格式,得到有向数据流图.使用提出的基于处理器体系架构约束的静态搜索算法对得到的数据流图进行搜索,得到满足约束的操作组合.结合典型测试序列的动态运行数据对搜索结果进行进一步的筛选,确定对于目标应用性能起关键作用的操作组合,以此作为专用加速指令.该方法实现了数据流图提取的自动化,并结合了静态数据流图搜索与动态结果筛选.通过在视频压缩专用处理器设计中的应用,证明此方法可以快速高效地进行专用指令的自动生成.  相似文献   

16.
多核处理器能够提升多线程程序的性能,但早已存在的诸多单线程程序无法从中获益,程序员也习惯于编写单线程程序。自动并行化技术是将单线程程序移植到多核上的重要手段,但是当循环中存在无法确定的数据依赖或复杂的控制流时,传统的自动并行化技术无法取得良好效果。decoupled software pipelining(DSWP)算法针对传统自动并行失败的循环实现了指令级的细粒度并行,但是需要对处理器体系结构和指令集的深入了解,对其并行性能和应用广泛性带来限制。通过对DSWP算法进行改进,提出了基于OpenMP的DSWP自动并行算法。该算法增大了并行粒度,使用OpenMP并行应用编程接口实现并行,不再依赖具体的体系结构,实现了DSWP算法的应用扩展。通过对基准测试集NPB3.3.1的测试表明,传统自动并行失败的循环,经文章算法并行后在双核处理器上平均加速比达到1.23以上;使用添加了文章算法的Open64编译器生成的并行程序,与仅使用传统自动并行方法的Intel编译器和Open64编译器所得程序相比,平均加速比分别高出22%和26%。  相似文献   

17.
针对光伏发电的波动性和随机性,提出一种基于一致性算法的分布式协调控制策略,同时加入最大功率约束,防止飞轮单元发生功率越限,利用飞轮储能阵列系统配合光伏发电,实现光伏飞轮联合系统依照调度计划输出。该策略不依赖于中央控制器或"领导者"单元,各飞轮单元只需与相邻飞轮单元交换信息即可实现功率协调分配,而各单元控制器则按照所分配功率指令控制其充放电,仿真结果表明了该控制策略的有效性和可行性。  相似文献   

18.
为了设计出能应用于无线移动通信的序列密码算法,提出了一种将单分组散列函数应用于哈希链方法的序列密码算法(SC-SBH).该算法首先用哈希链的方法对单分组散列函数进行循环运算,将运算的每一次结果值输出后连接成序列密码的密钥序列,然后将明文与密钥序列进行按位异或运算得到密文.实现SC-SBH算法后,对其安全性和随机性进行了测试,并将其运行效率与SC-MD5和SC-SHA算法进行了比较.实验结果表明,SC-SBH算法在加密方面不仅能够保证安全性,而且其运行效率明显高于SC-MD5和SC-SHA算法.  相似文献   

19.
针对图形应用编程接口库的图形处理器应用问题,设计一个图形应用编程接口函数库。该函数库基于开放的图形库标准OpenGL,采用3层结构设计实现。应用编程接口管理层管理和封装整个函数库,函数预处理层完成上下文的建立和函数参数的校验,命令解析层将函数参数转换成图形处理器能够识别的指令序列,参数转换完成后调用驱动程序将指令序列传递给底层硬件。以VxWorks为软件平台,对该函数库进行测试验证,结果表明该函数库可以满足图形处理器系统的要求。  相似文献   

20.
为了适应航空航天领域高分辨率图像识别和本地化高效处理的需求,解决现有研究中计算并行性不足的问题,在对深度卷积神经网络模型各层计算优化的基础上,设计了一款可扩展的多处理器簇的深度学习超长指令字(VLIW)处理器体系结构。设计中采用了特征图和神经元的并行处理,基于VLIW的指令级并行,多处理器簇的数据级并行以及流水线技术。FPGA原型系统测试结果表明,该处理器可有效完成图像分类和目标检测应用;当工作频率为200 MHz时,处理器的峰值性能可以达到128 GOP/s;针对选取的测试基准,该处理器的计算速度至少是CPU的12倍,是GPU的7倍;对比软件框架运行结果,处理器的测试精度的平均误差不超过1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号