首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
H.264/AVC的运动补偿处理环节需要消耗大量的内存访问带宽,这成为制约其性能的关键因素.分析表明,如此巨大的带宽消耗具体来自5个方面:像素数据的重复读取、地址对齐、突发访问、SDRAM页切换和内存竞争冲突.提出一种基于2D Cache结构的运动补偿带宽优化方法,充分利用像素的重用以减少数据的重复读取.同时通过结合数据在SDRAM中映射方式的优化,将众多短而随机的访问整合为地址对齐的突发访问,并减少了访问过程中页切换的次数.此外还提出了访存的组突发访问模式,以解决SDRAM竞争冲突所引入的开销.实验结果表明采用上述优化设计后,运动补偿的访存带宽降低了82.9~87.6%,同现存优化效率较高的方法相比,带宽进一步减少了64%~87%.在达到相同带宽减少幅度的前提下,所提出的新方法比传统Cache结构电路面积减少91%.该方法目前已在一款多媒体SoC芯片设计中实际应用.  相似文献   

2.
传统优先级反转或固定优先级仲裁方式会降低CPU(central processing unit)访存效率,且无法对内存数据进行保护。为此,设计一种能够仲裁控制多协议对CPU内存单元进行高效加解密读写的数字IP(intellectual property)。将同步电路与握手协议结合,实现两种协议间的跨时钟域处理;对多协议间的高效仲裁进行研究,提出饱和仲裁算法;设计以地址为种子的伪随机加密算法,完成对内存读写数据的加解密操作;设计自定义的访存协议,完成对内存的直接存取。仿真和流片结果表明,设计能很好调度多接口协议访存,防止CPU内存单元内的数据被非法破解。  相似文献   

3.
程晓东  潘杰  张志敏 《计算机工程》2006,32(18):243-245
围绕降低中科SoC主设备访问共享内存子系统延迟的目标,从总线模型的角度分析了访存延迟的构成,通过在接口电路中设置操作队列以及在底层采用基于Open-Page的内存控制器等措施,降低了访存平均拒绝率,减少了访存的延迟;对主存子系统建立了M/M/1/N排队模型,用集成测试环境MMSITE分别对优化前后的子系统进行了测试。结果表明,访存延时、单位时间内读写数据总量以及单位时间内完成读写次数等主要性能指标都有较好的改善。  相似文献   

4.
分析了Linux 内核模块特点,针对内核模块中二进制指令执行时带来的访存错误,设计了一种针对内核模块的静态检测方法。通过模拟内核模块中指令的执行,并比较访存指令请求与相关内存区域信息,静态检测方法目标是找出代码对内存的非法访问,并对可疑的访存行为发出警告。针对 ARM 处理器平台,给出了静态检测方法的具体实现,并对内核模块中的访存错误就行了检测验证。实验表明,静态检测方法能够有效找出包括地址越界访问、读未初始化内存、访问已释放内存等访存错误,本文的静态检测方法达到了预期的检测效果。  相似文献   

5.
为了提高访存效率,提供可以与计算流水线并行执行的多个独立的访存流水线,魂芯DSP片上存储器设计时采用分块内存结构,并在核内提供多个独立的地址生成单元用于访存操作.针对分块内存的结构特点,编译器对程序中的存储访问构建关于变量的冲突图,对分块内存进行存储块分配,优化数据在分块内存的分布.以数据在分块内存的优化分布为基础,指导程序中访存操作在地址生成单元的优化分配,使得编译器生成的代码可以最大程度地挖掘程序中数据访问的并行性.实验表明,基于分块内存的数据分配分布优化为其它优化如地址寄存器的分簇、访存向量化、软件流水等经典优化提供了良好基础,保证了编译器生成的代码可以充分发挥魂芯DSP提供的指令级并行能力.  相似文献   

6.
随着存储系统的访问速度与处理器运算速度的差距越来越显著,访存性能已成为提高处理器性能的瓶颈.通过对程序的访存行为进行分析,提出快速地址计算的自适应栈高速缓存方案.该方案将栈访问从数据高速缓存的访问中分离出来,充分利用栈空间数据访问的特点,提高指令级并行度,减少数据高速缓存污染,降低数据高速缓存失效率,并采用快速地址计算策略,减少栈访问的命中时间.该栈高速缓存在发生栈溢出时能够自适应地关闭,以避免栈切换对处理器性能的影响.栈高速缓存标志中增加进程标识,进程切换时不需要将数据写到低层存储系统中,适用于多进程环境.SPEC CPU2000程序运行结果表明,采用快速地址计算的自适应栈高速缓存方案,25.8%的访存指令可以并行执行,数据高速缓存失效率平均降低9.4%,IPC值平均提高6.9%.  相似文献   

7.
随着多媒体So C中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体So C的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数据映射到独立的存储体中,避免争抢频繁的设备共享存储体,减少设备间的访存冲突;划分过程基于数据量、延迟分析设备访存行为与访存冲突之间的关系,并以此来均衡各存储体的访问负载,同时提升多个设备的访存性能.该方法不依赖特殊硬件也无需修改上层应用,提供了一种透明的纯软件优化手段.将文中方法应用于真实的多媒体So C的实验结果表明,与基于带宽优先的划分方法相比,该方法在提高带宽利用率的同时降低访存延迟,将解码帧率提升8.4%~12.3%;并且在保证服务质量的情况下,可以通过进一步降低内存工作频率来减少系统功耗.  相似文献   

8.
根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%.  相似文献   

9.
提出了一种基于异步的请求和应答消息的新型访存协议.相比于传统的同步总线式内存体系结构,可变粒度的访存提高了内存带宽的有效利用率,异步消息访问有利于内存容量的扩展.本文通过分析典型应用程序的访存行为评估了消息式内存可能带来的性能提升,并探讨了实现消息式内存所面临的挑战.  相似文献   

10.
图像转置和图像分块处理在目前图像处理过程中是经常用到的两种操作.对于实时图像处理,图像转置和图像分块的效率直接影响到实时性,而图像转置和图像分块的效率和内存访问效率密切相关.而访存效率与计算机体系结构、存储器结构和实际操作策略有直接的关系.根据存储器的读写特性提出一种分段存储的高效内存访问策略,通过理论分析得出合理的分段长度,即图像转置时分段长度的选择与DDR2 SDRAM的型号有关;而图像分块时分段长度的选择则与数据块的大小有关.结合工程实际应用还推导了普适的总线地址与存储器物理地址之间的映射,同时给出了一种硬件实现方式,针对不同的应用,仅需要替换地址映射模块,具有一定的通用性和扩展性.分段存储方法已经在SAR实时成像压缩系统中得到有效的验证.  相似文献   

11.
We describe an efficient, high-level abstraction, multi-port memory-control unit (MCU) capable of providing data at maximum throughput. This MCU has been developed to take full advantage of FPGA parallelism. Multiple parallel processing entities are possible in modern FPGA devices, but this parallelism is lost when they try to access external memories. To address the problem of multiple entities accessing shared data we propose an architecture with multiple abstract access ports (AAPs) to access one external memory. Bearing in mind that hardware designs in FPGA technology are generally slower than memory chips, it is feasible to build a memory access scheduler by using a suitable arbitration scheme based on a fast memory controller with AAPs running at slower frequencies. In this way, multiple processing units connected through the AAPs can make memory transactions at their slower frequencies and the memory access scheduler can serve all these transactions at the same time by taking full advantage of the memory bandwidth.  相似文献   

12.
The key idea of the algorithm is to let one transaction controller be in charge of all transactions in a set of interacting transactions. Two transactions are interacting if they are both interested in (accessing) the same resource. In addition, the controller is in charge of all the resources allocated to any of the transactions in the set. Having one controller in charge of all the transactions in a set of interacting transactions and all the resources allocated to them makes it easier to detect deadlocks and avoid them. The main problem dealt with is how a controller takes charge of another transaction when the transaction tries to access one of the resources currently in the control of the controller and how a controller releases a transaction back to its original controller when the transaction is no longer interested in any of the resources in which one or more of the other transactions are also interested. Communicating sequential processes (CSP) is used to code the algorithm. The correctness of the algorithm is proved in a semiformal manner  相似文献   

13.
Conventional memory blocks have a single address input and a single, usually bidirectional, data output. Dual-port memories have two address inputs and two data ports. These memories have been designed to facilitate the exchange of data between CPUs within a multiprocessor system. Each microprocessor can access the multiport memory and therefore read the data of another processor or leave data for another processor. There are two problems in the design of multiport memory systems. The first, and more trivial, concerns the way in which each processor supplies an address to the memory and how it accesses the memory data bus. This is not a particularly complex problem and the designer biggest worry is how to design the interface with the least number of multiplexers and buffers. Whenever a processor wishes to access the multiport memory, it takes control of the address and data bus and then accesses the memory. A more fundamental design problem is posed when two or more processors try to access the memory nearly simultaneously. Memory contention is solved by the use of an arbitration circuit that arbitrates between the contending processors, grants access to only one processor and forces the others to wait. Fortunately, it is no longer necessary for all designers to construct their own dual-port memories from discrete components, since several manufacturers now put the memory, address and data multiplexers plus arbitration circuits on chip. IDT's application note shows how its dual-port memory operates and how it is used in multiprocessor systems.  相似文献   

14.
软件事务性内存(STM)提供同步手段,让多线程程序高效并发执行。如果两个事务访问了同一个共享数据且至少一个事务进行了修改操作,则称发生了冲突。检测冲突后,一般选择一个事务终止。当前的STM实现都基于严格的线性一致性(Linearizability)语义模型,实现简单。但是,基于该语义会导致很多本来可以完成提交的事务失败,降低了系统效率。把因果一致性模型应用于STM,可以在保证程序准确性条件下取得较好的实际性能。实验数据表明,该算法简单高效,明显减少了冲突数目。  相似文献   

15.
A method of operating a multiprocessor system consisting of a large number of processors accessing a common memory is presented. Access to the memory is performed in a deterministic manner which eliminates the need for arbitration logic. An analysis of the method is given and a comparison made against crossbar switch and common bus systems with serial daisy chain and parallel arbitration logic. The key feature of the method is that the memory offers access to locations rather than the processors making asynchronous requests. The scheme has particular application to macro-dataflow when a common memory is used to hold function parameters.  相似文献   

16.
A segmented storage strategy is provided for corner turn of Synthetic Aperture Radar (SAR) data based on multiple Field-Programable Gate Arrays (multi-FPGAs) parallel system. The optimal segmented length is related to the type of the Double-Data-Rate (DDR) memory. Address mapping between pixel location and memory location is expressed in pseudo-code, and the address mapping between bus address and memory address is also deduced in universal expression. A hardware module is given to implement DDR2 SDRAM controller. Practical debugging and experiment have proved that the segmented storage method balances the access rate between row and column in memory cells and accelerates the corner turn of two dimensional image data. Compared with previous related works, our implementation could get higher Throughput/Area and provide much more optimal performance.  相似文献   

17.
面向更新密集型应用的内存数据库系统,其检查点技术应符合几个关键的要求,包括检查点操作对正常事务处理的干扰尽可能小、能够处理存取倾斜状况、支持数据库系统的快速恢复、提供恢复过程中的系统可用性等.该文提出一种事务一致的分区检查点技术,采用基于元组的动态多版本并发控制机制,避免了读写事务的加锁冲突,提高系统吞吐能力;检查点操作以只读事务形式实现,存多版本并发控制下,避免检查点操作对正常事务处理的堵塞;由于检查点文件是事务一致的,只需要记录事务的Redo 日志信息,在系统恢复过程中,只需要对日志文件进行一遍扫描处理,加快恢复过程;基于优先级的数据分区装载和恢复,使得恢复过程中新事务的数据存取请求迅速得到满足,保证了恢复过程中的系统可用性.由于采用两级版本管理机制以及动态版本共享技术,多版本管理的空间开销降低到可以接受的水平.实验结果表明,文中提出的检查点技术方案获得比模糊检查点技术高27%的系统吞吐量,同时版本管理的空间开销在可接受的范围之内,满足高性能应用的要求.  相似文献   

18.
实时主存数据库事务的预处理   总被引:14,自引:1,他引:14  
本文提出了一种支持实时事务的预分析算法和基于该算法的主存数据库内外存替换策略.它首先预分析实时事务以获得事务存取行为的知识,再在事务执行时,进行基于这些信息的存取及内外存数据交换,从而实现主存数据库管理和支持实时事务的定时限制.  相似文献   

19.
根据事务的实时性及关键性分类,事务分为硬实时、固实时、软实时和非实时事务。传统的并发控制仅考虑其中一到两种事务,且将固/软实时事务统一为软实时事务考虑,带有很大的不精确性,这将降低系统吞吐率。为此,本文提出了一种自适应并发控制模式。该模式采用两级并发控制体系,一级是主并发控制器,探测不同类事务间可能存在
在的类间数据冲突;二级是从并发控制器,探测同类事务间可能存在的类内数据冲突,由四类从并发控制器实现。根据各类事务的不同特征,各控制器采用的策略不同,因而具有极大的自适应性并能最终提高系统的吞吐率,但需要增加额外的硬件开销。  相似文献   

20.
企业服务总线中,传统事务处理模型、扩展事务处理模型和Web服务事务处理模型都无法满足该环境下服务流程的事务处理需求.提出一种以流程进行事务注册、以事务性消息进行事务划分的面向流程的事务处理模型来解决企业服务总线环境下具有服务松耦合、运行时间长短不确定,服务类型多样以及服务流程的静态编制等特性的服务流程的事务需求.该事务处理模型已在企业服务总线产品中得到了成功应用.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号