期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

单悦尔杨兵于宗光曹华锋《电子器件》2015,38(1)

高性能DSP器件对功耗指标要求越来越高,功耗主要来源于对存储空间的访问,因此提出了一种改进型Cache功耗优化策略,实现了对指令Cache的分阶段访问,同时兼顾了Cache的动态功耗和静态漏流功耗的优化,改进了传统的基于非分阶段访问的按需唤醒策略NPOWP(Non-Phased Cache with On-Demand Wakeup Prediction)显著影响处理器性能的缺点。设计应用于DSP设计的4路组相连昏睡指令Cache中,使用基于分阶段访问的按需唤醒策略POWP(Phased Cache with On-Demand Wakeup Prediction)策略平均可降低75.4%的指令Cache功耗,降低6.7%的处理器总功耗,性能损失仅为0.77%. 相似文献

2.

片上多处理器共享cache的访存时间最优划分方法

李浩谢伦国《通信学报》2012,(4):136-142

提出的访存时间最优Cache划分(OMTP, optimalmemorytimeCachepartitioning)方法通过特征获取部件来获取不同应用程序的平均失效开销和Cache命中的路分布情况,以此作为划分依据来给竞争程序分配合适的Cache空间,达到优化程序整体执行性能的目的.实验结果表明,OMTP方法相比基于利用率的Cache划分(UCP)方法吞吐率平均提高3.1%,加权加速比平均提高1.3%,整体性能更优相似文献

3.

一种面向CMP的可变相联度混合Cache结构

下载免费PDF全文

晏沛湘杨先炬张民选《电子学报》2011,39(3):656-659

以V-Way Cache结构为原型,提出一种面向CMP的可变相联度混合Cache结构CMP-VH.CMP-VH将最后一级片上Cache划分成一种优化的私有/共享结构,Tag私有,数据部分私有部分共享.采用基于数据块的重用信息替换策略,提供显式和隐式两种机制在核间对共享数据进行容量划分.并行程序负载SPLASH-2的模拟... 相似文献

4.

RAID控制器的Cache管理策略研究

陈云霄王丽芳蒋泽军《微电子学与计算机》2014,(7)

为进一步缩小外存与CPU间的速度差异,满足日益增高的I/O请求率,在磁盘阵列设计中引入Cache,实现一种适用于RAID控制器的Cache管理策略。此方法重点研究了Cache的组织与管理,利用优化的最近最少使用算法(LRU)提高Cache命中率,通过树形结构的转换减少磁盘I/O次数,以提高系统的整体性能.从该策略在RAID控制器原型的实验结果分析,证明该策略对减少写磁盘I/O确有显著效果. 相似文献

5.

嵌入式视频图像系统压缩算法的实现与优化

张春光刘化彤《电子产品世界》2009,16(3)

针对最新的嵌入视频编码器宏块Cache严重缺失,帧率低等问题,提出了运动估计算法的优化、像素插值优化以及利用Cache使用优化、SAD,EDMA进行数据搬移方法,提高了存储速度,并在TMS3206465DSP平台上实现了MPEG-4视频编码器. 相似文献

6.

一种数据Cache的设计和验证

屈凌翔袁潇王澧《电子与封装》2014,(5):28-32

Cache能够提高DSP处理器对外部存储器的存取速度,提高DSP的性能,设计高性能低功耗的Cache,对于提高DSP芯片的整体性能有着十分重大的意义。描述了DSP芯片中一种高性能低功耗的数据Cache。这种Cache可以通过增加具备重装功能的Line Buffer来减少处理器对Cache的访问频率,从而降低Cache功耗。通过FFT、AC3、FIR三种基准程序测试表明,Line Buffer可以降低35%的Cache访问频率,明显降低了数据Cache功耗。相似文献

7.

嵌入式CPU设计中Cache性能的全局优化

谢满德《微电子学与计算机》2005,22(2):143-147

论文针对嵌入式CPU设计方法的特点,提出了两个层次的Cache全局性能优化方法.一个是应用程序层次,即基于编译技术的以循环和数据变换理论为基础的优化数据位置的全局优化方法;另一个是系统层次,即优化Cache索引的全局优化方法.这些方法对嵌入式CPU的设计具有重要的指导作用,能有效地提高嵌入式系统的整体性能. 相似文献

8.

面向能耗优化的自适应可重构指令Cache

凌明武建平张阳梅晨翟婷婷《微电子学》2012,42(1):102-106,129

可重构Cache架构可根据程序的存储资源需求自动调整Cache结构,对系统能耗优化具有重要意义。设计了一种容量和组关联度可重构的指令Cache架构以及与之对应的高效自适应可重构算法。通过选取MiBench和MediaBench中的8个测试例程进行测试验证,提出的自适应可重构Cache与16kB四路组关联配置固定的指令Cache相比,在性能平均仅下降0.34%的情况下,系统总能耗平均降低10.51%。相似文献

9.

一种带Cache加速的HyperRAM控制器设计与验证

邹敏鲁澳宇邹望辉喻华《现代电子技术》2024,(6):91-96

针对目前可穿戴设备上对存储设备性能要求高、体积小、功耗低等问题,在FPGA上实现了一款可拓展的高性能HyperRAM控制器,并引入Cache缓存加速设计,以提高对频繁访问数据的命中率和优化存储器访问模式,实现更高速的数据传输和优化的系统性能。运用UVM验证方法学和FPGA进行验证,结果表明,带有Cache缓存的HyperRAM控制器相较于普通HyperRAM,在读写连续地址时性能提高61%,并具有较好的可靠性与有效性,可为嵌入式系统提供高效、灵活的存储器解决方案。相似文献

10.

一种结合动态写策略的磁盘Cache替换算法 总被引：1，自引：0，他引：1

李娜姜秀柱田芳王书芹《微电子学与计算机》2008,25(6)

磁盘Cache是改善I/O性能的一种技术.通过分析Cache写策略和LRU、LFU替换算法对磁盘Cache性能的影响,引入一种动态写策略,改进替换算法,使基于频率的块替换算法FBR与动态写策略相结合.二者结合较好地应用于磁盘存取中,充分利用局部性规律,提高I/O性能,使磁盘在多种工作环境和不同Cache大小下的性能更优. 相似文献

11.

一种叠前时间偏移并行模式的流水线改进方法

王霖晏海华《微电子学与计算机》2008,25(10)

为了隐藏IO和通信延迟进而提升克希霍夫积分叠前时间偏移并行模式的性能,采用了一种流水线改进方法.针对某克希霍夫叠前时间偏移并行模式实例,提出了2种基于该改进方法的原型的设计与实现,从而提高了该实例性能.通过对典型偏移作业实验结果的分析,验证了该方法的有效性. 相似文献

12.

基于并行分离增广拉格朗日乘子法的字符矫正

马杰张小美苑焕朝《光电子．激光》2015,26(6):1170-1178

字符矫正是光学字符识别(OCR)系统预处理过程中的重要步骤,针对传统的增广拉格朗日乘子法(ALM)求解字符矫正问题时收敛性和计算速度的不足,本文研究了并行分离的增广拉格朗日乘子法,综合考虑字符矫正模型的建立过程, 提出并行分离方法与ALM相结合的思想解决字符矫正问题。用并行方式将迭代问题分解成3个子问题,计算时能够同时求解分解后的这3个子问题,然后进行凸组合,最后收敛到问题的最优解。实验结果表明,本文算法能够快速准确地对变形的字符图像进行矫正,并且具有良好的实时性和适应性,可用于OCR系统的矫正预处理中,提高OCR系统的识别率。相似文献

13.

并行BCH伴随式计算电路的优化 总被引：1，自引：0，他引：1

张亮王志功胡庆生《信号处理》2010,26(3):458-461

随着通信系统的速率越来越高,对BCH译码器吞吐量的要求也不断提高。由于BCH码是串行的处理数据,在吞吐量大的应用时一般需要并行处理,但这会导致电路的复杂度显著增加。本文主要研究并行伴随式计算电路的优化。通过合并输入端的常量乘法器,得到改进的并行伴随式结构。该结构克服了传统方法只能对局部的乘法器进行优化的缺点,可以对全部乘法器进行优化,从而有效的减少逻辑资源。实验结果表明,对于并行度为64的BCH(2040,1952)译码器,本文的优化结构可以节省67%的逻辑资源,而且在并行度、纠错能力和码长变化时,仍然可以获得较好的优化结果。相似文献

14.

面向CUDA程序的性能预测框架

下载免费PDF全文

曲海成于思淼刘万军王鑫源《电子学报》2020,48(4):654-661

为对CUDA并行程序内核性能进行分析和预测，从而指导并行程序设计及性能优化，提出一种性能预测框架.1）从GPU编程模型和设备架构细节入手，以线程束为研究单位，通过整合与GPU程序用时密切相关的软硬件基本特征，定义了并行空间闲置度、流处理器线程束负载、并行效应因子等高层次性能相关特征.2）基于上述特征，框架针对线程负载均衡型GPU程序，评估内核函数在不同问题规模以及执行配置下的执行时间.3）依据性能评估原理提出了内核函数执行配置参数的优化策略.验证实验结果表明，该框架在两种典型情境下对现有程序性能的平均预测准确率分别达到89%和94%，客观归纳了高层次特征与程序性能间的相关关系，且能定性分析并行算法性能水平. 相似文献

15.

Address Generation Optimization for Embedded High-Performance Processors: A Survey

Guillermo Talavera Murali Jayapala Jordi Carrabina Francky Catthoor 《Journal of Signal Processing Systems》2008,53(3):271-284

Nowadays embedded systems are growing at an impressive rate and provide more and more sophisticated applications characterized by having a complex array index manipulation and a large number of data accesses. Those applications require high performance specific computation that general purpose processors can not deliver at a reasonable energy consumption. Very long instruction word architectures seem a good solution providing enough computational performance at low power with the required programmability to speed up the time to market. Those architectures rely on compiler effort to exploit the available instruction and data parallelism to keep the data path busy all the time. With the density of transistors doubling each 18 months, more and more sophisticated architectures with a high number of computational resources running in parallel are emerging. With this increasing parallel computation, the access to data is becoming the main bottleneck that limits the available parallelism. To alleviate this problem, in current embedded architectures, a special unit works in parallel with the main computing elements to ensure efficient feed and storage of the data: the address generator unit, which comes in many flavors. Future architectures will have to deal with enormous memory bandwidth in distributed memories and the development of address generators units will be crucial for effective next generation of embedded processors where global trade-offs between reaction-time, bandwidth, energy and area must be achieved. This paper provides a survey of methods and techniques that optimize the address generation process for embedded systems, explaining current research trends and needs for future.

Francky CatthoorEmail:

相似文献

16.

基于超级计算机的矩量法性能分析与优化

下载免费PDF全文

陈岩林中朝张玉《微波学报》2017,33(3):1-5

复杂目标的精确电磁特性分析往往需要巨大的存储和极长的计算时间。针对这一问题,结合国内发展迅速的超级计算机系统,研究了具有精确高效仿真能力的高性能电磁算法——高阶矩量法。提出了单元预选法来消除矩阵并行填充过程中的无效计算,加速矩阵填充过程。提出了一种具有更少的通信次数和通信量的新型并行LU分解算法,加速矩阵方程求解过程。数值测试表明提出的矩阵并行填充算法和矩阵方程并行求解算法在超级计算机平台上都能获得较高的并行性能,大幅提高了矩量法的仿真能力。相似文献

17.

Experimental Demonstration of a Hybrid Link for Mitigating Atmospheric Turbulence Effects in Free-Space Optical Communication

《Photonics Technology Letters, IEEE》2009,21(17):1196-1198

Atmospheric turbulence causes severe performance degradation in free-space optical communication links. However, by using a reliable low-bandwidth wireline or RF link in parallel, the performance of such links can be improved significantly. This is achieved by using error correction codes at the transmitter and decoding the received data jointly over the two links at the receiver. Our work describes the feasibility study of such a hybrid link. It is observed that a 10% use of the wireline link can result in more than 8-dB performance gain in the optical link. 相似文献

18.

多层混合填充吸波材料的三目标粒子群优化

下载免费PDF全文

赵雨辰豆建华田　浩刘江凡席晓莉《微波学报》2022,38(6):95-99

使用多层结构来离散自由空间到金属衬底之间理想的连续阻抗变化过程是吸波材料设计的重要方法之一,较多层数的精细结构能够更好地逼近这一连续变化过程以获得更理想的吸波性能,但也会增加工程实现成本和复杂度。因此,实际工程中往往需要在结构层数和逼近精度等诸多相互矛盾的因素之间寻求平衡。文中采用石墨烯纳米片(GNS) / 片状羰基铁颗粒(FCI)混合填充的多层吸波材料,在由极化无关的宽带宽角吸波性能、FCI 填充量以及最终层数这三个指标所张成的三维目标空间中,基于粒子群优化对多层吸波材料进行了优化设计。结果显示,相比于吸波性能和磁性粒子填充量二维空间中的设计结果,在FCI 填充量仅需增加不到3. 3 wt%的情况下,即可使所需层数下降50%并保持原有吸波能力的98%;不进行优化的GNS 填充量仅增加0. 6 wt%,层数显著减少,吸波材料的总厚度降低了14%,综合性能也提高了27. 9%。此外,与其它不同优化策略的系统进行了对比,文中设计为混合填充吸波材料的多目标优化提供了一定参考。相似文献

19.

一种并行数据传输系统的性能分析

颜彪许宗泽蔡钧陈万培薛波《电讯技术》2004,44(4):19-23

并行正交调幅数据传输系统利用很多相互重叠的子信道,能够使得总的信号速率非常接近给定频带的奈奎斯特速率。文中首先对并行数据传输系统进行了描述,然后,在存在相位偏移和延迟失真的情况下,对系统的性能进行了分析。结果表明总失真与子信道数目的平方成反比,从而说明了并行传输系统具有抵抗延迟失真的作用。此外,通过改变解调相位,还可大大改善并行系统的性能。相似文献

20.

基于OpenMP的电磁场FDTD并行程序性能分析 总被引：1，自引：0，他引：1

李正浩周俊刘大刚《现代电子技术》2008,31(14)

OpenMP是共享内存并行程序设计的工业标准,它通过一些编译指导语句能方便地将程序并行化,特别适合于在多线程的计算机上使用。针对一个采用电磁场FDTD算法的二维波导问题,首先对其计算方法和计算过程进行简单描述,其次讨论了几个影响其并行程序执行效率的几个因素。结果表明,采取不同的并行方式,设定不同的调度策略,设置并行区线程数的大小均会影响并行程序的性能。因此,在使用OpenMP编写电磁场并行程序时,需要综合考虑各种因素的影响才能设计出高效的程序。相似文献