共查询到20条相似文献,搜索用时 140 毫秒
1.
高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%. 相似文献
2.
提出的访存时间最优Cache划分(OMTP, optimalmemorytimeCachepartitioning)方法通过特征获取部件来获取不同应用程序的平均失效开销和Cache命中的路分布情况,以此作为划分依据来给竞争程序分配合适的Cache空间,达到优化程序整体执行性能的目的.实验结果表明,OMTP方法相比基于利用率的Cache划分(UCP)方法吞吐率平均提高3.1%,加权加速比平均提高1.3%,整体性能更优 相似文献
3.
4.
为进一步缩小外存与CPU间的速度差异,满足日益增高的I/O请求率,在磁盘阵列设计中引入Cache,实现一种适用于RAID控制器的Cache管理策略。此方法重点研究了Cache的组织与管理,利用优化的最近最少使用算法(LRU)提高Cache命中率,通过树形结构的转换减少磁盘I/O次数,以提高系统的整体性能.从该策略在RAID控制器原型的实验结果分析,证明该策略对减少写磁盘I/O确有显著效果. 相似文献
5.
针对最新的嵌入视频编码器宏块Cache严重缺失,帧率低等问题,提出了运动估计算法的优化、像素插值优化以及利用Cache使用优化、SAD,EDMA进行数据搬移方法,提高了存储速度,并在TMS3206465DSP平台上实现了MPEG-4视频编码器. 相似文献
6.
7.
谢满德 《微电子学与计算机》2005,22(2):143-147
论文针对嵌入式CPU设计方法的特点,提出了两个层次的Cache全局性能优化方法.一个是应用程序层次,即基于编译技术的以循环和数据变换理论为基础的优化数据位置的全局优化方法;另一个是系统层次,即优化Cache索引的全局优化方法.这些方法对嵌入式CPU的设计具有重要的指导作用,能有效地提高嵌入式系统的整体性能. 相似文献
8.
9.
针对目前可穿戴设备上对存储设备性能要求高、体积小、功耗低等问题,在FPGA上实现了一款可拓展的高性能HyperRAM控制器,并引入Cache缓存加速设计,以提高对频繁访问数据的命中率和优化存储器访问模式,实现更高速的数据传输和优化的系统性能。运用UVM验证方法学和FPGA进行验证,结果表明,带有Cache缓存的HyperRAM控制器相较于普通HyperRAM,在读写连续地址时性能提高61%,并具有较好的可靠性与有效性,可为嵌入式系统提供高效、灵活的存储器解决方案。 相似文献
10.
一种结合动态写策略的磁盘Cache替换算法 总被引:1,自引:0,他引:1
磁盘Cache是改善I/O性能的一种技术.通过分析Cache写策略和LRU、LFU替换算法对磁盘Cache性能的影响,引入一种动态写策略,改进替换算法,使基于频率的块替换算法FBR与动态写策略相结合.二者结合较好地应用于磁盘存取中,充分利用局部性规律,提高I/O性能,使磁盘在多种工作环境和不同Cache大小下的性能更优. 相似文献
11.
为了隐藏IO和通信延迟进而提升克希霍夫积分叠前时间偏移并行模式的性能,采用了一种流水线改进方法.针对某克希霍夫叠前时间偏移并行模式实例,提出了2种基于该改进方法的原型的设计与实现,从而提高了该实例性能.通过对典型偏移作业实验结果的分析,验证了该方法的有效性. 相似文献
12.
字符矫正是光学字符识别(OCR)系统预处理过程中 的重要步骤,针对传统的增广拉格朗日乘子法(ALM)求解字符矫正问题时收敛性和计算速度 的不足,本文研究了并行分离的增广拉格朗日乘子法,综合考虑字符矫正模型的建立过程, 提出并行分离方法与ALM相结合的思想解决字符 矫正问题。用并行方式将迭代问题分解成3个子问题,计算时能够同时求解分解后的这3个 子问题,然后进行凸组合,最 后收敛到问题的最优解。实验结果表明,本文算法能够快速准确地对变形的字符图像进 行矫正,并且具有良好的实时性和适 应性,可用于OCR系统的矫正预处理中,提高OCR系统的识别率。 相似文献
13.
并行BCH伴随式计算电路的优化 总被引:1,自引:0,他引:1
随着通信系统的速率越来越高,对BCH译码器吞吐量的要求也不断提高。由于BCH码是串行的处理数据,在吞吐量大的应用时一般需要并行处理,但这会导致电路的复杂度显著增加。本文主要研究并行伴随式计算电路的优化。通过合并输入端的常量乘法器,得到改进的并行伴随式结构。该结构克服了传统方法只能对局部的乘法器进行优化的缺点,可以对全部乘法器进行优化,从而有效的减少逻辑资源。实验结果表明,对于并行度为64的BCH(2040,1952)译码器,本文的优化结构可以节省67%的逻辑资源,而且在并行度、纠错能力和码长变化时,仍然可以获得较好的优化结果。 相似文献
14.
为对CUDA并行程序内核性能进行分析和预测,从而指导并行程序设计及性能优化,提出一种性能预测框架.1)从GPU编程模型和设备架构细节入手,以线程束为研究单位,通过整合与GPU程序用时密切相关的软硬件基本特征,定义了并行空间闲置度、流处理器线程束负载、并行效应因子等高层次性能相关特征.2)基于上述特征,框架针对线程负载均衡型GPU程序,评估内核函数在不同问题规模以及执行配置下的执行时间.3)依据性能评估原理提出了内核函数执行配置参数的优化策略.验证实验结果表明,该框架在两种典型情境下对现有程序性能的平均预测准确率分别达到89%和94%,客观归纳了高层次特征与程序性能间的相关关系,且能定性分析并行算法性能水平. 相似文献
15.
Guillermo Talavera Murali Jayapala Jordi Carrabina Francky Catthoor 《Journal of Signal Processing Systems》2008,53(3):271-284
Nowadays embedded systems are growing at an impressive rate and provide more and more sophisticated applications characterized
by having a complex array index manipulation and a large number of data accesses. Those applications require high performance
specific computation that general purpose processors can not deliver at a reasonable energy consumption. Very long instruction
word architectures seem a good solution providing enough computational performance at low power with the required programmability
to speed up the time to market. Those architectures rely on compiler effort to exploit the available instruction and data
parallelism to keep the data path busy all the time. With the density of transistors doubling each 18 months, more and more
sophisticated architectures with a high number of computational resources running in parallel are emerging. With this increasing
parallel computation, the access to data is becoming the main bottleneck that limits the available parallelism. To alleviate
this problem, in current embedded architectures, a special unit works in parallel with the main computing elements to ensure
efficient feed and storage of the data: the address generator unit, which comes in many flavors. Future architectures will
have to deal with enormous memory bandwidth in distributed memories and the development of address generators units will be
crucial for effective next generation of embedded processors where global trade-offs between reaction-time, bandwidth, energy
and area must be achieved. This paper provides a survey of methods and techniques that optimize the address generation process
for embedded systems, explaining current research trends and needs for future.
相似文献
Francky CatthoorEmail: |
16.
17.
《Photonics Technology Letters, IEEE》2009,21(17):1196-1198
18.
使用多层结构来离散自由空间到金属衬底之间理想的连续阻抗变化过程是吸波材料设计的重要方
法之一,较多层数的精细结构能够更好地逼近这一连续变化过程以获得更理想的吸波性能,但也会增加工程实现成
本和复杂度。因此,实际工程中往往需要在结构层数和逼近精度等诸多相互矛盾的因素之间寻求平衡。文中采用
石墨烯纳米片(GNS) / 片状羰基铁颗粒(FCI)混合填充的多层吸波材料,在由极化无关的宽带宽角吸波性能、FCI 填
充量以及最终层数这三个指标所张成的三维目标空间中,基于粒子群优化对多层吸波材料进行了优化设计。结果
显示,相比于吸波性能和磁性粒子填充量二维空间中的设计结果,在FCI 填充量仅需增加不到3. 3 wt%的情况下,即
可使所需层数下降50%并保持原有吸波能力的98%;不进行优化的GNS 填充量仅增加0. 6 wt%,层数显著减少,吸
波材料的总厚度降低了14%,综合性能也提高了27. 9%。此外,与其它不同优化策略的系统进行了对比,文中设计
为混合填充吸波材料的多目标优化提供了一定参考。 相似文献
19.
并行正交调幅数据传输系统利用很多相互重叠的子信道,能够使得总的信号速率非常接近给定频带的奈奎斯特速率。文中首先对并行数据传输系统进行了描述,然后,在存在相位偏移和延迟失真的情况下,对系统的性能进行了分析。结果表明总失真与子信道数目的平方成反比,从而说明了并行传输系统具有抵抗延迟失真的作用。此外,通过改变解调相位,还可大大改善并行系统的性能。 相似文献
20.
基于OpenMP的电磁场FDTD并行程序性能分析 总被引:1,自引:0,他引:1
OpenMP是共享内存并行程序设计的工业标准,它通过一些编译指导语句能方便地将程序并行化,特别适合于在多线程的计算机上使用。针对一个采用电磁场FDTD算法的二维波导问题,首先对其计算方法和计算过程进行简单描述,其次讨论了几个影响其并行程序执行效率的几个因素。结果表明,采取不同的并行方式,设定不同的调度策略,设置并行区线程数的大小均会影响并行程序的性能。因此,在使用OpenMP编写电磁场并行程序时,需要综合考虑各种因素的影响才能设计出高效的程序。 相似文献