首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
党向磊  王箫音  佟冬  陆俊林  程旭  王克义 《电子学报》2012,40(11):2145-2151
为提高按序执行处理器的访存性能,本文提出一种预执行指导的数据预取方法(PEDP).PEDP利用跨距预取器对规则的访存模式进行预取,并在发生L2 Cache失效后通过预执行后续指令对不规则的访存模式进行精确的预取,从而结合两者的优势提高预取覆盖率.同时,PEDP利用预执行过程中提前捕获的真实访存信息指导跨距预取器的预取过程.在预执行的指导下,跨距预取器可以对预执行能够产生的符合跨距访存模式的地址更早地发起预取请求,从而改善预取及时性.此外,为进一步优化上述指导过程,PEDP使用更新过滤器有效去除指导过程中对跨距预取器的有害更新,从而提高预取准确率.实验结果表明,在平均情况下,PEDP将基准处理器的性能提升33.0%.与跨距预取和预执行各自单独使用相比,PEDP将性能分别提高16.2%和7.3%.  相似文献   

2.
Web预取技术和缓存技术对缓解访问延迟有一定的作用,但各有利弊。这.里将预取技术与语义缓存技术相结合,对用户查询的访问频率进行实时监测,并通过多项式回归算法对用户的下一周期访问概率进行预测。采用基于多项式回归预取技术构建的预测模型,可以实现动态在线预测,既可避免兴趣漂移引起的预取不确定性,又可以减少历史信息的存储量,科学合理地解决Web访问延迟的问题。  相似文献   

3.
针对高性能VLIW数字信号流处理器运算速度与存储系统片外访存请求速度不能匹配的问题,提出了一种基于流运算的片上预取存储系统,包括数据的预取以及读写功能,流预取控制以及流预取存储单元的状态转换等.评估了所提出的预取存储系统的面积以及相关应用性能,结果证明在增加少许面积的情况下,有预取系统的处理器性能比没有预取的情况下提高了14.6%左右.  相似文献   

4.
一种异构多核处理器的并行流存储结构   总被引:1,自引:3,他引:1       下载免费PDF全文
 异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战.针对YHFT64-3处理器,本文提出了一种并行流层次存储结构,深入阐述了如何体现应用特点、支持并行数据流处理的存储系统的设计思想和方法,从多个层次实现对并行数据流的挖掘或捕获.测试结果表明,这种存储结构体现了应用特点,能够较好地发挥YHFT64-3处理器的性能,同频情况下(500MHz),YHFT64-3比YHFT64-2性能高2—3个数量级,与1.6GHz的Itanium2性能相当,但代价更低.  相似文献   

5.
应用预取策略的行缓冲指令Cache设计   总被引:1,自引:0,他引:1  
行缓冲是一种有效的低功耗方案,但其极大地降低了处理器的运算性能.设计并实现了使用预取策略的行缓冲Cache,使用一个缓冲行来预取存储在L1 Cache中的指令,从而降低了行缓冲结构中由于容量缺失而造成的流水线停顿,提升了处理器的运算性能.以Leon2的VHDL模型为试验环境进行了验证,带有预取策略的行缓冲结构较原来的结构平均提升了12.4%.  相似文献   

6.
针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。  相似文献   

7.
基于位置的服务中数据预取策略的应用研究   总被引:1,自引:0,他引:1  
由于受网络环境和嵌入式移动数据库等自身工作环境和软硬件条件的限制,用户在申请基于位置的服务时,存在数据传输不稳定,频繁连接服务数据库,服务响应时间过长等缺点.为了能更好的为用户服务,减少服务等待时间,提高服务质量,文章改进关联规则方法,挖掘位置服务中用户的使用模式,预测用户下一步可能申请的服务类型,从而可以预取相关服务数据到用户移动设备,能够减少用户等待数据调用和传输的时间,优化服务质量,提高嵌入式移动数据库的工作效率.  相似文献   

8.
 为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%.  相似文献   

9.
基于多个取指优先级的同时多线程处理器取指策略   总被引:1,自引:0,他引:1  
孙彩霞  张民选 《电子学报》2006,34(5):790-795
同时多线程(SMT,Simultaneous Multithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.本文提出了一种基于多个取指优先级的同时多线程取指策略MFP(Multiple Fetch Priorities),用于减少L2 cache失效给处理器性能带来的负面影响.模拟结果表明,无论使用IPC作为度量标准还是使用Hmean作为度量标准,对于所有类型的工作负载,尤其是存储器访问密集的工作负载,MFP都要优于现有的其他取指策略.此外,对于不同的取指策略,MFP表现出不同程度的提升.相对于PDG的提升最明显,平均IPC以及平均Hmean分别提高了19.2%和27.7%.  相似文献   

10.
针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统资源竞争,并通过忽略对部分非循环依赖数据预取平衡帮助线程与主线程间的执行任务,提高线程数据预取的时效性。实验结果表明,通过该策略控制线程数据预取距离能进一步提高线程预取性能。  相似文献   

11.
针对目前通用的达芬奇异构多核处理器,研究了其ARM核、DSP核以及视频协处理器之间的通信与协作机制.在分析多核处理器核间通信原理的基础上,研究了TMS320DM816x系列达芬奇异构多核处理器的核间通信技术,详细阐述片上核间互联结构与核间通信软件的实现.最后基于SysLink底层通信模块设计了多路高清音视频应用系统,对核间通信进行验证.系统可充分发挥各处理核的性能,实现了各核间的高效协作.  相似文献   

12.
多核处理器使得并行系统的结构日益复杂,已经成为处理器的主流,并发展成为各种通信与媒体应用的主流处理平台.通讯结构是多核系统中的核心技术之一,核间通信的效率是影响多核处理器性能的重要指标.目前有三种主要的通讯架构:总线系统结构、交叉开关网络和片上网络.总线结构设计相对方便、硬件消耗较少、成本较低,交叉开关是适用于构建大容...  相似文献   

13.
由于关系到系统的安全性及散热代价等方面,能耗问题已经成为嵌入式系统研究的重点。对于多核处理器上具有依赖关系的周期性硬实时任务,设计了一种基于动态电压调节的节能任务调度方法。该方法首先用RDAG算法将任务独立化,然后以功耗最低为原则,采用遗传算法确定任务映射。基于Intel PXA270功耗模型,采用了几个随机任务集进行仿真实验,结果表明该方法比现有的方法节省了20%~30%的能耗。  相似文献   

14.
针对多核处理器系统的特点,对任务分配及调度模型进行改进,提高各处理器相对均衡负载度,并在此基础上提出一种均衡种群遗传算法(BPGA).算法在任务节点的高度约束条件下,达到任务节点在处理核上随机分配,而任务节点数均衡分配.采用随机生成图法进行模拟实验,与其他算法相比,BPGA算法有更小的调度长度和较少的执行时间.  相似文献   

15.
多核处理器已经成为处理器的主流,并发展成为各种通信与媒体应用的主流处理平台。通讯结构是多核系统中的核心技术之一,核间通信的效率是影响多核处理器性能的重要指标。目前有3种主要的通讯架构:总线系统结构、交叉开关网络和片上网络。总线结构设计相对方便、硬件消耗较少、成本较低;交叉开关是适合用于构建大容量系统的交换网络结构;而片上网络是更高层次、更大规模的片上网络系统,目前可以解决多核体系结构问题,是多核系统最有前途的解决方案之一。文中在分析了NoC结构的基本原理、系统结构和功能的同时,也提供了部分单元的设计实现。  相似文献   

16.
This paper studies how to parallelize the emerging media mining workloads on existing small-scale multi-core processors and future large-scale platforms. Media mining is an emerging technology to extract meaningful knowledge from large amounts of multimedia data, aiming at helping end users search, browse, and manage multimedia data. Many of the media mining applications are very complicated and require a huge amount of computing power. The advent of multi-core architectures provides the acceleration opportunity for media mining. However, to efficiently utilize the multi-core processors, we must effectively execute many threads at the same time. In this paper, we present how to explore the multi-core processors to speed up the computation-intensive media mining applications. We first parallelize two media mining applications by extracting the coarse-grained parallelism and evaluate their parallel speedups on a small-scale multi-core system. Our experiment shows that the coarse-grained parallelization achieves good scaling performance, but not perfect. When examining the memory requirements, we find that these coarse-grained parallelized workloads expose high memory demand. Their working set sizes increase almost linearly with the degree of parallelism, and the instantaneous memory bandwidth usage prevents them from perfect scalability on the 8-core machine. To avoid the memory bandwidth bottleneck, we turn to exploit the fine-grained parallelism and evaluate the parallel performance on the 8-core machine and a simulated 64-core processor. Experimental data show that the fine-grained parallelization demonstrates much lower memory requirements than the coarse-grained one, but exhibits significant read-write data sharing behavior. Therefore, the expensive inter-thread communication limits the parallel speedup on the 8-core machine, while excellent speedup is observed on the large-scale processor as fast core-to-core communication is provided via a shared cache. Our study suggests that (1) extracting the coarse-grained parallelism scales well on small-scale platforms, but poorly on large-scale system; (2) exploiting the fine-grained parallelism is suitable to realize the power of large-scale platforms; (3) future many-core chips can provide shared cache and sufficient on-chip interconnect bandwidth to enable efficient inter-core communication for applications with significant amounts of shared data. In short, this work demonstrates proper parallelization techniques are critical to the performance of multi-core processors. We also demonstrate that one of the important factors in parallelization is the performance analysis. The parallelization principles, practice, and performance analysis methodology presented in this paper are also useful for everyone to exploit the thread-level parallelism in their applications.
Wenlong LiEmail:
  相似文献   

17.
随着硬件技术的飞速发展,双核乃至多核的计算机的普及,操作系统向多核平台移植的需要也越来越迫切。详细分析操作系统在向多CPU支持的平台移植时可能遇见的伪共享问题及优先级错置问题的产生原因,针对不同情况提出了按规范修改代码、增加内核调度监控线程及将特定程序绑定在单CPU运行等不同对策,并给出了实现方法。  相似文献   

18.
本文给出一个在r台机上的实用并行排序算法,并行步数不超过Tr=O(n/r)log2r.log2n),1<r<n.  相似文献   

19.
视频监控、备份、归档等应用产生海量存储数据,导致存储能耗急剧增加.S-RAID采用局部并行数据布局,可显著降低该类应用的存储能耗.为使更多磁盘待机节能,S-RAID通常执行"小写"操作,写操作时会额外引入等量的读操作,会显著降低性能.现有预读机制主要发生在文件级,无法感知RAID级小写引发的读旧数据、旧校验数据等读操作,因此不会也无法预读该类数据.为此,提出一种面向S-RAID的RAID级小写预读算法,由小写操作触发并在RAID级执行预读,根据S-RAID的数据布局方式,大粒度异步预读小写需要的旧数据、旧校验数据,有效减少I/O数和寻道数,提高磁盘的利用率.该方法可显著提高S-RAID的写性能,并且不依赖于任何额外硬件,具有更高的可用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号