首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
对间接存储器的访问延迟往往会影响应用程序的执行性能, 一种有效的解决方案是使用预取技术. 国产申威平台中支持常规访问模式的软件预取和硬件预取机制, 但是其GCC编译器中缺少为间接存储器访问模式自动插入预取的方法. 为了解决这个问题, 基于申威GCC开发了一个完整间接预取优化遍, 它利用深度优先搜索算法查找引用循环归纳变量的间接内存引用并为之生成合适的软件预取. 在一组内存受限的基准测试中, 自动预取遍对SW1621处理器的平均加速比达到1.16倍.  相似文献   

2.
陈彬  肖侬  蔡志平  王志英 《软件学报》2010,21(12):3186-3198
针对大规模虚拟机环境下软件的按需部署,提出了一种基于预取的按需软件部署优化机制,能够降低用户端虚拟机的启动延迟以及为用户提供更好的虚拟机本地运行性能.基于用户使用软件的行为特点以及虚拟磁盘映像的细粒度分割,预取机制在后台对服务器端存储的虚拟磁盘映像进行预取,通过一种基于访问频率和优先级的预取目标识别算法AFPTR(access frequency and priority-based prefetch target recognition)和一种预取量动态调节机制,将预取集中在用户使用的少数小尺寸的虚拟磁盘映像上,并在预取过程中对预取量进行动态自适应地调节,以提高虚拟磁盘访问的本地命中率,进而提高用户端虚拟机的运行性能.基于QEMU虚拟机和Linux平台,实现了基于预取的按需软件部署原型系统.实验结果表明,预取机制能够有效地降低虚拟机的启动延迟,并能提高虚拟机的本地运行性能,支持虚拟机环境下按需、快速的软件部署.  相似文献   

3.
随着物联网的普及,对物联网终端设备可使用能量的要求也在提高.能量收集技术拥有广阔前景,其能通过产生可再生能量来解决设备能量短缺问题.考虑到未知环境中可再生能量的不确定性,物联网终端设备需要合理有效的能量分配策略来保证系统持续稳定工作.文中提出了一种基于DQN的深度强化学习能量分配策略,该策略通过DQN算法直接与未知环境交互来逼近目标最优能量分配策略,而不依赖于环境的先验知识.在此基础上,还基于强化学习的特点和系统的非时变系统特征,提出了一种预训练算法来优化该策略的初始化状态和学习速率.在不同的信道数据条件下进行仿真对比实验,结果显示提出的能量分配策略在不同信道条件下均有好于现有策略的性能,且兼具很强的变场景学习能力.  相似文献   

4.
数据预取常用来提升系统的性能与吞吐量,对磁盘的能耗考虑甚少。针对此问题,在传统算法之上通过延迟磁盘的异步预取,合并磁盘I/O操作,减少磁盘的能耗状态切换,延长连续休眠时间来达到节能的目的。也通过基于真实运行状态的模拟,对预取算法进行了评估和验证,得出改进后的预取在不影响性能的前提下比标准预取节省17%的能量。  相似文献   

5.
Linux下一种磁盘节能的预取算法①   总被引:1,自引:0,他引:1  
数据预取常用来提升系统的性能与吞吐量,对磁盘的能耗考虑甚少。针对此问题,在传统算法之上通过延迟磁盘的异步预取,合并磁盘I/O操作,减少磁盘的能耗状态切换,延长连续休眠时间来达到节能的目的。也通过基于真实运行状态的模拟,对预取算法进行了评估和验证,得出改进后的预取在不影响性能的前提下比标准预取节省17%的能量。  相似文献   

6.
嵌入式系统的节能问题是系统设计中的热点。在保证系统整体控制性能的前提下达到尽可能低的能耗,一直是嵌入式控制系统中能量管理的目标。由于诸多不确定性因素和负载的动态变化,嵌入式系统总是运行在不可预期的开放环境中。为了有效处理CPU负载变化及控制任务执行时间不确定等问题,提出了一种基于模糊逻辑的能量觉察反馈调度方法。反馈调度器动态调节CPU的处理速度,实现对CPU利用率的有效控制,从而提供了一种有效的能量管理机制。通过仿真实验与常规动态电压调整方法、传统方法以及理想情况进行比较,验证了该反馈调度方法的有效性。  相似文献   

7.
为了提高网络内存的访存性能,基于一种页面级流缓存和预取结构提出了可变步长的带状流检测算法VSS(variable stride stream)和基于时钟步长的流预取优化算法来优化网络访存性能.带状流检测算法解决了固定步长流检测下循环访问中虚拟页地址的跳跃问题,消除了断流,可以有效提高流检测的覆盖率.基于时钟步长的流预取优化动态调整预取长度,可以解决有些预取不能及时取回的问题,进一步提高预取性能.通过和顺序预取算法的比较可以看出,VSS算法可以实现高准确率、低通信开销的预取.通过模拟分析了这种流缓存和预取机制在网络访存系统中的应用,验证了以少量性能下降换取灵活的远程内存扩展方法的可行性.  相似文献   

8.
针对现代计算机系统中的存储墙问题,提出一种适合于链式数据结构的数据预取方法——纯遍历推送方法。采用基于共享高速缓存的多核处理器平台CMP上的多线程技术,在主程序运行时分离出一个推送线程,由其将主线程需要的数据提前预取至处理器共享高速缓存中以隐藏主线程的存储器延迟。实验结果证明该方法在CMP架构下对以链式结构为主的内存受限程序的性能有一定的改进。  相似文献   

9.
在负载均衡问题中,负载调度方法足核心,它的好坏直接影响均衡系统的性能.提出一种基于多路规划遗传算法的服务器端负载均衡算法.该方法借鉴生物界自然选择和自然遗传机制,模拟自然进化过程搜索最优解,为负载均衡问题提供了新的计算模型.同时,多路规划(多次交叉或变异)后取最优策略的应用,使得多路规划遗传算法的优化性能大为提高.该方法降低了服务器端请求的响应时间,提高了服务器端CPU的利用率,从而改善了系统性能.数据实例表明,该方法是可行的、正确的和有效的.  相似文献   

10.
考虑了多个设备的移动边缘计算(mobile edge computing, MEC)与端对端(device-to-device, D2D)技术协作网络, 其中多个无线设备的最终输出作为另一个设备上某个子任务的输入. 为了最小化无线设备的能耗和任务完成时间的加权和, 研究了最优的资源分配(卸载发射功率和本地CPU频率)和任务卸载决策问题. 首先固定卸载决策, 推导出卸载发射功率和本地CPU频率的闭合表达式, 运用凸优化方法求出该问题的解. 然后基于一次爬升策略提出了一种低复杂度线性搜索算法, 该算法可以在线性时间内获得最佳卸载决策. 数值结果表明, 该策略的性能明显优于其他有代表性的基准测试.  相似文献   

11.
高带宽远程内存结构中的预取研究   总被引:1,自引:0,他引:1  
高速电路和光互联技术的发展极大地提高了网络的速度与带宽。因而,突破高性能计算机CPU与内存紧耦合的传统结构成为可能,CPU与内存的耦合不再受距离的限制,这必将引起体系结构的变革。文[1]提出DSAG结构——CPU与内存在空间上分离,每个CPU节点上仅留少量内存.将海量内存放在远程统一管理作为内存服务器,CPU节点和内存服务器之间通过高速网络互连。这种新的体系结构带来了更好的共享性和可扩展性,但同时也对我们解决CPU和内存之间的不平衡性问题带来了挑战。为了降低DSAG这种远程内存结构增加的访存时延,我们考虑到CPU正常访存没有充分利用网络的高带宽,因此可以利用剩余的网络带宽来进行远程内存数据的预取。本论文在应用程序执行时记录本地(相对于远程内存)不命中的地址信息,以页对齐分析其中存在的页框流(Page Frame Stream)的统计特征,并提出可基于页框流的预取机制可降低访存延迟、提升系统性能的观点。最后我们采用模拟的方法验证了观点的可行性与正确性,进一步提出了三种预取策略,比较并分析影响预取效果的因素。  相似文献   

12.
丁祥武  李子通 《计算机科学》2016,43(11):265-271, 308
集成多核CPU-GPU架构已经成为计算机处理器芯片的发展方向。利用这种架构的并行计算能力进行数据处理已经成为了数据库领域的研究热点。为了提高列存储系统的查询性能,首先改进了已有协处理机制中的负载分配策略,通过监测数据库系统CPU占用率,动态地为处理器提供合理的数据划分;然后,针对集成多核CPU-GPU架构上的数据预取机制,提出了一种确定预取数据大小的模型,同时,针对GPU访存的特点,进行了GPU访存优化;最后,使用OpenCL作为编程语言,实现了一种集成多核CPU-GPU架构上的列存储排序归并连接算法,并采用提出的方法对连接处理进行优化。实验证明,所提优化策略可以使列存储系统排序归并连接性能提升33%。  相似文献   

13.
Data prefetching is an effective data access latency hiding technique to mask the CPU stall caused by cache misses and to bridge the performance gap between processor and memory.With hardware and/or software support,data prefetching brings data closer to a processor before it is actually needed.Many prefetching techniques have been developed for single-core processors.Recent developments in processor technology have brought multicore processors into mainstream. While some of the single-core prefetching t...  相似文献   

14.
指令级并行编译器的数据预取及优化方法   总被引:6,自引:0,他引:6  
微处理器芯片的处理能力越来越强,但是,存储器的速度却远远不能与其匹配,造成了整个系统的性能不理想,为解决这个总理2,编译器发展了局部性优化、数据预取等多种技术,文中将介绍一种用于ILP(Instruction lev-el Parallelism)优化编译器的数据预取技术以及一种利用寄存器堆减少主存访问次数、对程序进行 优化的方法,利用它们可以提高平均存储性能,对科学和工程计算的应用是相当有效的。  相似文献   

15.
Both hardware and software prefetching have been shown to be effective in tolerating the large memory latencies inherent in shared-memory multiprocessors; however, both types of prefetching have their shortcomings. While software schemes require less hardware support than hardware schemes, they must generate address calculation instructions and a prefetch instruction for each datum that needs to be prefetched. Hardware schemes, however, must become progressively more complex to be able to compute data access strides and to increase the prefetching lookahead. In this paper, we propose an integrated hardware/software prefetching method that uses simple hardware that can handle most data accesses and software prefetching for the few remaining accesses. A compile time algorithm analyzes the access streams formed by array references and determines sequences of consecutive memory accesses to an access stream that can be prefetched by the hardware mechanism. This analysis is based on the relative memory locations of consecutive accesses to an access stream and the number of intervening data references between consecutive accesses to an access stream. In addition, the prefetching lookahead can be set separately for each access stream. Our approach yields an effective scheme that minimizes both CPU overhead and hardware costs. Execution-driven simulations show our method to be very effective.  相似文献   

16.
The speed gap between processor and main memory is the major performance bottleneck of modern computer systems. As a result, today's microprocessors suffer from frequent cache misses and lose many CPU cycles due to pipeline stalling. Although traditional data prefetching methods considerably reduce the number of cache misses, most of them strongly rely on the predictability for future accesses and often fail when memory accesses do not contain much locality. To solve the long latency problem of current memory systems, this paper presents the design and evaluation of our high-performance decoupled architecture, the HiDISC (Hierarchical Decoupled Instruction Stream Computer). The motivation for the design originated from the traditional decoupled architecture concept and its limits. The HiDISC approach implements an additional prefetching processor on top of a traditional access/execute architecture. Our design aims at providing low memory access latency by separating and decoupling otherwise sequential pieces of code into three streams and executing each stream on three dedicated processors. The three streams act in concert to mask the long access latencies by providing the necessary data to the upper level on time. This is achieved by separating the access-related instructions from the main computation and running them early enough on the two dedicated processors. Detailed hardware design and performance evaluation are performed with development of an architectural simulator and compiling tools. Our performance results show that the proposed HiDISC model reduces 19.7% of the cache misses and improves the overall IPC (Instructions Per Cycle) by 15.8%. With a slower memory model assuming 200 CPU cycles as memory access latency, our HiDISC improves the performance by 17.2%.  相似文献   

17.
主机通过高速网络访问远程内存的性能已经达到或远高于访问本地磁盘的性能,通过各种优化手段,网络内存系统的性能能得到更好的提升。该文基于一个Linux网络内存系统(LNMS),在客户端一级提出了一种新的预取算法m-ppm,该算法发展了多Markov链预取模型,使之更适合LNMS。在LNMS上实现了另2种常用的预取算法以作比较,实验数据表明,m-ppm算法对多用户模式更有效。  相似文献   

18.
传统的Linux内核协议栈已不能满足大规模数据处理系统对网络传输越来越高的性能要求。现有很多研究是将原来在内核态实现的协议和接口移到用户态去实现,但针对内核态优化的研究比较少。在研究分析Linux内核态文件发送接口sendfile( )处理流程和管理机制的基础上,本文提出一种内核态文件发送优化方法,采用自动负载均衡的定长内存池管理、CPU亲和性等技术,对内核态文件发送接口进行优化改造。解决了系统在高负载情况下内存碎片、内存耗尽及CPU抖动的问题,有效提升了数据传输性能。实验结果表明,在高并发、高吞吐场景下,采用本文优化方法后,系统运行更稳定,内核态CPU占有率下降50%。  相似文献   

19.
Main memory cache performance continues to play an important role in determining the overall performance of object-oriented, object-relational and XML databases. An effective method of improving main memory cache performance is to prefetch or pre-load pages in advance to their usage, in anticipation of main memory cache misses. In this paper we describe a framework for creating prefetching algorithms with the novel features of path and cache consciousness. Path consciousness refers to the use of short sequences of object references at key points in the reference trace to identify paths of navigation. Cache consciousness refers to the use of historical page access knowledge to guess which pages are likely to be main memory cache resident most of the time and then assumes these pages do not exist in the context of prefetching. We have conducted a number of experiments comparing our approach against four highly competitive prefetching algorithms. The results shows our approach outperforms existing prefetching techniques in some situations while performing worse in others. We provide guidelines as to when our algorithm should be used and when others maybe more desirable.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号