首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 137 毫秒
1.
Linux系统采用了虚拟存储技术,当请求的页面不在内存中时触发缺页中断,由此带来的延迟不确定,故不能满足实时应用程序的要求.此外,对于用户态和内核态存在大量数据传输的情况下,通用Linux系统也不能满足实时应用程序的需求.针对以上问题,讨论了Linux的内存管理,并采用内存映射技术来解决虚拟内存的换页问题以及实现用户态和内核态共享一块物理内存来满足实时应用程序的需求.在文章的最后,测试和比较了采用内存映射技术实现实时内存的性能.测试结果表明,采用该技术可以有效地为实时应用程序提供实时内存.  相似文献   

2.
一种分布式磁盘缓存的设计与实现   总被引:1,自引:0,他引:1  
为了提高系统10性能,针对松散耦合环境下,高带宽、低延迟的传输特点,提出了一种通过扩展存储器层次结构来提高系统10性能的分布式系统——分布式磁盘缓存系统DRACO。通过利用分布式环境中空闲内存节点的剩余内存,扩充系统整体缓存容量,减小访问磁盘数据的频度,最终达到提高系统整体性能的目的。  相似文献   

3.
《电子与电脑》2009,(7):74-74
Rambus宣布推出完整的XDR内存系统.能够以高达7.2Gbps的数据速率运作.并具备最佳的功耗效能。这款硅芯片内含EIPida最近推出的1Gb XDR DRAM装置以及XIO内存控制器.能够传输真实的数据型态。相对于GDDR5控制器,XIO内存控制器的功耗效率较优达3.5倍以上,而且整个内存系统能够以同等的功耗提供高达2倍以上的带宽。  相似文献   

4.
一种多功能联网型热泵控制系统的设计与实现   总被引:1,自引:1,他引:0  
介绍了多功能联网热泵空调控制系统的硬件结构及软件实现方法。结合热泵控制逻辑,以及实际的设备结构与安装环境,设计了相关的热泵控制器、水泵控制器以及用户控制面板。系统采用RS 485总线或CAN总线实现通信,并引入了多种抗干扰措施,对环境的变化具有良好的适应性。通过轮询法多任务调度以及软定时器算法控制,实现了系统复杂功能的高效控制,节省了控制器资源。经过长期的基本功能测试、空载测试和负载测试,成功验证了系统的整体功能与性能。  相似文献   

5.
内存主要是用来存放各种临时输入输出数据、中间计算结果,以及与外部存储器交换信息。随着软件性能的不断更新、容量不断加大,很多具有大容量内存的电脑在运行大型软件或打开窗口过多时,会严重影响系统的运行性能。下面笔者介绍几种提高内存使用性能的技巧。1.及时释放内存如果长时间使用电脑时发现系统内存不断减少,要注意释放内存。将驻留在内存中的数据从内存中释放出来。释放  相似文献   

6.
随着面向特定应用的系统集成芯片(Application-Specific SoC)大量涌现,在高层抽象级上分析应用软件在目标系统中的性能,对于指导底层设计,减少设计空间探索有着重要意义.本文基于指令执行流和内存访问流的分析,提出一种性能分析的新方法.该方法首先记录指令流和内存访问流,通过元素选取、匹配、解析,最终统计出指令执行时间和内存访问频度,进而分析系统性能.在系统设计早期应用该方法,不仅可以根据系统性能瓶颈针对性的指导底层硬件架构设计,而且可以精确分析系统性能.  相似文献   

7.
阐述了龙芯3号CPU的性能特点及应用情况,分析了影响内存带宽的因素以及龙芯与至强处理器之间的差别,并使用STRAM测试工具测试出它们之间实际的内存带宽差距。提升龙芯CPU的主频并且改进片内内存控制器来提升内存带宽,同时保证龙芯系列低功耗特点。  相似文献   

8.
随着DDR3内存的广泛应用以及技术的不断发展,不同的DDR3内存之间速度差异逐渐减小,针对DDR3控制器的研究已成为当前计算机领域关注的焦点。Altera在外部存储器方面提出一系列的解决方案,这些方案涵盖了从高性能DDR3到低功耗DDR的每种应用[2]。Altera FPGA通过外部存储器IP来提高存储器性能,它包括PHY和控制器。设计人员可以选择Quartus II软件所列出的默认存储器解决方案,根据存储器要求选择最佳PHY和控制器IP,也可以选择定制存储器接口。因此,使用Altera公司开发出的FPGA产品进行DDR3内存控制器的设计是一种很理想的选择。  相似文献   

9.
云计算及数据中心领域中已广泛采用虚拟化技术来尽可能消除虚拟计算环境中的内存泄漏是提高其可靠性的一种重要途径。提出了一种基于虚拟机自省机制的运行时内存泄漏的信息流检测模型与内存泄漏的判定方法,设计并实现了该模型的原型系统。通过对原型系统的有效性与性能评估实验分析,结果表明,该模型方法能有效地检测出运行时内存泄漏,并且具有较好的性能。  相似文献   

10.
基于内部标签的综合接入系统输入输出调度方案   总被引:1,自引:1,他引:0  
本文在介绍了综合业务接入系统的基本结构基础上 ,介绍了自治系统内部标签 (ILP)信令格式 ,提出了一种新的基于优先级的参数自适应轮循调度 (Priority -basedParameterAuto -adaptiveRound -robinScheduling)方案 ,以及该方案在基于ILP的综合接入系统I/O调度中的实现方法 ,并对几种调度方案的性能进行了实验比较  相似文献   

11.
目前针对粗粒度可重构结构循环映射的研究主要集中在操作布局和临时数据路由,缺乏考虑数据映射的研究,该文提出一种基于存储划分和路径重用的模调度映射流程。首先进行细粒度的存储划分找到合适的数据映射,提高数据存取的并行性,再用模调度寻找操作布局和临时数据路由,最后利用构建的路由开销模型平衡存储器路由和处理单元路由的使用,引入路径重用策略优化路由资源。实验结果表明,该方法在循环的启动间隔、每周期指令数和执行延迟等方面均具有良好的性能。  相似文献   

12.
为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数据存取速度的要求,为SIMD图像处理机系统性能的提高提供了支持.  相似文献   

13.
Multimedia applications such as video and image processing are often characterized by a huge number of data accesses. In many digital signal processing applications, array access patterns are regular and periodic. In these cases, optimized architectures using pipelined memory access controllers can be generated. In this paper, we focus on implementing memory interfacing modules that can be automatically generated from a high-level synthesis tool and which can efficiently handle predictable address patterns as well as random ones (i.e., dynamic address computations). The benefits of balancing dynamic address computations from datapath to dedicated computation units in the memory controller is also analyzed as well as operator bitwidth optimization and data locality to save power consumption and reduce latency.   相似文献   

14.
为解决雷达、电子对抗等高性能计算应用中的存储访问带宽瓶颈,文中设计了一种多通道交织的存储架构,通过存储通道间的地址交织映射和集中式调度器的拆分与重组,实现了多个物理存储通道的并发访问,成倍提高了访存带宽,并具有良好的可配置和可扩展特性。该设计充分利用市场现有成熟的单通道控制器技术,经济高效。为评估性能,以4通道存储系统为例,建立了周期精确的RTL模型及其仿真验证环境。测试结果显示,交织粒度在64 B~512 B内系统获得最优性能,该性能是目前广泛采用的独立多通道存储架构性能的约4倍。  相似文献   

15.
针对应用系统对超大点数快速傅里叶变换(FFT)的性能需求不断提升,以及现有处理平台的资源对实现超大点数FFT的制约问题,该文提出一种超大点数FFT的实现方法。该方法通过优化铰链因子存储,采用行列号方式访问2维矩阵避免了3次显性转置,从而节省了内存资源;同时,通过分析处理器的分级存储结构特点,优化了矩阵行列划分规则,进而提高了行列访问效率。实验结果表明,该方法节约了近一半的内存资源,且有效提高了超大点数FFT的执行速度。  相似文献   

16.
针对卫星图像实时接收与处理系统提出的实际应用需求,采用Xilinx的Virtex 6系列FPGA为平台设计实现了一种基于AXI4总线结构的多端口DDR3 SDRAM存储控制器。允许多个模块实时对单一DDR3外部存储器进行读写访问,满足现有系统中多处理模块需同时缓存各阶段卫星图像数据的需求。通过实际功能验证和ChipScope采样读写数据信号,验证了系统的可行性与可靠性,计算得出最大传输带宽达6.0GB/s、带宽利用率最高在70%-93%之间。应用AXI4总线结构,本多端口存储控制器在高速数据读写系统中具有很高的拓展应用价值。  相似文献   

17.
多媒体系统芯片(M-SoC)是一种典型的多任务系统芯片.芯片内部众多的数据请求源都要通过总线访问单一的片外存储器,合理调度这些总线请求成为系统设计的关键.本文通过详细分析总线上片内外数据通道的特点和数据流量,给出了一种基于多通道DMA的总线调度策略,并将该策略成功运用于单芯片音视频解码系统芯片的总线设计中.该策略有效地融合了DMA请求和总线总裁问题,普遍适用于片级总线多请求的多媒体系统芯片.  相似文献   

18.
论述了主存储器访问操作中的bank预充电、row激活、column读写的访问调度技术。通过该技术可以缩短主存储器访问时间,从而达到提高主存储器带宽的目的。同时,为研究和评价这种主存储器访问调度策略的性能给出了一种建立仿真实验环境的思路。  相似文献   

19.
针对多密级信息环境下的数据交互问题,该文设计实现一种多密级交互存储控制器。在交互模型设计的基础上,构建了控制器总体结构,对存储器系统和交互控制逻辑等关键模块进行了详细设计,并实现了一个依据用户策略完成多密级信息交互的原型系统。实验结果表明,该文设计的多密级交互存储控制器,交互过程可由用户根据实际需求配置,能够实现多密级信息交互功能,对信息分级管理具有重要意义。  相似文献   

20.
In the past years, many works have demonstrated the applicability of Coarse-Grained Reconfigurable Array (CGRA) accelerators to optimize loops by using software pipelining approaches. They are proven to be effective in reducing the total execution time of multimedia and signal processing applications. However, the run-time reconfigurability of CGRAs is hampered overheads introduced by the needed translation and mapping steps. In this work, we present a novel run-time translation technique for the modulo scheduling approach that can convert binary code on-the-fly to run on a CGRA. We propose a greedy approach, since the modulo scheduling for CGRA is an NP-complete problem. In addition to read-after-write dependencies, the dynamic modulo scheduling faces new challenges, such as register insertion to solve recurrence dependences and to balance the pipelining paths. Our results demonstrate that the greedy run-time algorithm can reach a near-optimal ILP rate, better than an off-line compiler approach for a 16-issue VLIW processor. The proposed mechanism ensures software compatibility as it supports different source ISAs. As proof of concept of scaling, a change in the memory bandwidth has been evaluated. In this analysis it is demonstrated that when changing from one memory access per cycle to two memory accesses per cycle, the modulo scheduling algorithm is able to exploit this increase in memory bandwidth and enhance performance accordingly. Additionally, to measure area and performance, the proposed CGRA was prototyped on an FPGA. The area comparisons show that a crossbar CGRA (with 16 processing elements and including an 4-issue VLIW host processor) is only 1.11 × bigger than a standalone 8-issue VLIW softcore processor.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号