共查询到19条相似文献,搜索用时 62 毫秒
1.
为提高按序执行处理器的访存性能,本文提出一种预执行指导的数据预取方法(PEDP).PEDP利用跨距预取器对规则的访存模式进行预取,并在发生L2 Cache失效后通过预执行后续指令对不规则的访存模式进行精确的预取,从而结合两者的优势提高预取覆盖率.同时,PEDP利用预执行过程中提前捕获的真实访存信息指导跨距预取器的预取过程.在预执行的指导下,跨距预取器可以对预执行能够产生的符合跨距访存模式的地址更早地发起预取请求,从而改善预取及时性.此外,为进一步优化上述指导过程,PEDP使用更新过滤器有效去除指导过程中对跨距预取器的有害更新,从而提高预取准确率.实验结果表明,在平均情况下,PEDP将基准处理器的性能提升33.0%.与跨距预取和预执行各自单独使用相比,PEDP将性能分别提高16.2%和7.3%. 相似文献
2.
3.
针对高性能VLIW数字信号流处理器运算速度与存储系统片外访存请求速度不能匹配的问题,提出了一种基于流运算的片上预取存储系统,包括数据的预取以及读写功能,流预取控制以及流预取存储单元的状态转换等.评估了所提出的预取存储系统的面积以及相关应用性能,结果证明在增加少许面积的情况下,有预取系统的处理器性能比没有预取的情况下提高了14.6%左右. 相似文献
4.
异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战.针对YHFT64-3处理器,本文提出了一种并行流层次存储结构,深入阐述了如何体现应用特点、支持并行数据流处理的存储系统的设计思想和方法,从多个层次实现对并行数据流的挖掘或捕获.测试结果表明,这种存储结构体现了应用特点,能够较好地发挥YHFT64-3处理器的性能,同频情况下(500MHz),YHFT64-3比YHFT64-2性能高2—3个数量级,与1.6GHz的Itanium2性能相当,但代价更低. 相似文献
5.
应用预取策略的行缓冲指令Cache设计 总被引:1,自引:0,他引:1
行缓冲是一种有效的低功耗方案,但其极大地降低了处理器的运算性能.设计并实现了使用预取策略的行缓冲Cache,使用一个缓冲行来预取存储在L1 Cache中的指令,从而降低了行缓冲结构中由于容量缺失而造成的流水线停顿,提升了处理器的运算性能.以Leon2的VHDL模型为试验环境进行了验证,带有预取策略的行缓冲结构较原来的结构平均提升了12.4%. 相似文献
6.
针对处理器内存访问性能测试缺少对多级缓存数据预取优化而导致测试数据不能真实反映实际性能的问题,分析了多级缓存数据预取优化技术及其对内存访问带宽的影响。提出了一种针对多级缓存处理器的访存性能优化测试方法,该方法充分利用缓存数据预取机制,并避免处理器核间资源竞争,实现访存性能提升。实验数据表明,采用该方法可以得到符合硬件实际访存性能的数据,为准确评估高性能处理器的访存能力提供支持。 相似文献
7.
基于位置的服务中数据预取策略的应用研究 总被引:1,自引:0,他引:1
由于受网络环境和嵌入式移动数据库等自身工作环境和软硬件条件的限制,用户在申请基于位置的服务时,存在数据传输不稳定,频繁连接服务数据库,服务响应时间过长等缺点.为了能更好的为用户服务,减少服务等待时间,提高服务质量,文章改进关联规则方法,挖掘位置服务中用户的使用模式,预测用户下一步可能申请的服务类型,从而可以预取相关服务数据到用户移动设备,能够减少用户等待数据调用和传输的时间,优化服务质量,提高嵌入式移动数据库的工作效率. 相似文献
8.
为提高按序处理器的性能和能效性,本文提出一种基于值预测和指令复用的预执行机制(PVPIR).与传统预执行方法相比,PVPIR在预执行过程中能够预测失效Load指令的读数据并使用预测值执行与该Load指令数据相关的后续指令,从而对其中的长延时缓存失效提前发起存储访问以提高处理器性能.在退出预执行后,PVPIR通过复用有效的预执行结果来避免重复执行已正确完成的指令,以降低预执行的能耗开销.PVPIR实现了一种结合跨距(Stride)预测和AVD(Address-Value Delta)预测的值预测器,只记录发生过长延时缓存失效的Load指令信息,从而以较小的硬件开销取得较好的值预测效果.实验结果表明,与Runahead-AVD和iEA方法相比,PVPIR将性能分别提升7.5%和9.2%,能耗分别降低11.3%和4.9%,从而使能效性分别提高17.5%和12.9%. 相似文献
9.
基于多个取指优先级的同时多线程处理器取指策略 总被引:1,自引:0,他引:1
同时多线程(SMT,Simultaneous Multithreading)处理器中,同时运行的线程在共享资源的同时也在竞争资源.如果一个发生L2 cache失效的线程长时间占用共享资源,那么会导致其他线程运行速度减慢,甚至会因为缺少资源而停顿下来,从而降低了SMT处理器的总体性能.本文提出了一种基于多个取指优先级的同时多线程取指策略MFP(Multiple Fetch Priorities),用于减少L2 cache失效给处理器性能带来的负面影响.模拟结果表明,无论使用IPC作为度量标准还是使用Hmean作为度量标准,对于所有类型的工作负载,尤其是存储器访问密集的工作负载,MFP都要优于现有的其他取指策略.此外,对于不同的取指策略,MFP表现出不同程度的提升.相对于PDG的提升最明显,平均IPC以及平均Hmean分别提高了19.2%和27.7%. 相似文献
10.
11.
12.
13.
由于关系到系统的安全性及散热代价等方面,能耗问题已经成为嵌入式系统研究的重点。对于多核处理器上具有依赖关系的周期性硬实时任务,设计了一种基于动态电压调节的节能任务调度方法。该方法首先用RDAG算法将任务独立化,然后以功耗最低为原则,采用遗传算法确定任务映射。基于Intel PXA270功耗模型,采用了几个随机任务集进行仿真实验,结果表明该方法比现有的方法节省了20%~30%的能耗。 相似文献
14.
针对多核处理器系统的特点,对任务分配及调度模型进行改进,提高各处理器相对均衡负载度,并在此基础上提出一种均衡种群遗传算法(BPGA).算法在任务节点的高度约束条件下,达到任务节点在处理核上随机分配,而任务节点数均衡分配.采用随机生成图法进行模拟实验,与其他算法相比,BPGA算法有更小的调度长度和较少的执行时间. 相似文献
15.
多核处理器已经成为处理器的主流,并发展成为各种通信与媒体应用的主流处理平台。通讯结构是多核系统中的核心技术之一,核间通信的效率是影响多核处理器性能的重要指标。目前有3种主要的通讯架构:总线系统结构、交叉开关网络和片上网络。总线结构设计相对方便、硬件消耗较少、成本较低;交叉开关是适合用于构建大容量系统的交换网络结构;而片上网络是更高层次、更大规模的片上网络系统,目前可以解决多核体系结构问题,是多核系统最有前途的解决方案之一。文中在分析了NoC结构的基本原理、系统结构和功能的同时,也提供了部分单元的设计实现。 相似文献
16.
Wenlong Li Xiaofeng Tong Tao Wang Yimin Zhang Yen-Kuang Chen 《Journal of Signal Processing Systems》2009,57(2):213-228
This paper studies how to parallelize the emerging media mining workloads on existing small-scale multi-core processors and
future large-scale platforms. Media mining is an emerging technology to extract meaningful knowledge from large amounts of
multimedia data, aiming at helping end users search, browse, and manage multimedia data. Many of the media mining applications
are very complicated and require a huge amount of computing power. The advent of multi-core architectures provides the acceleration
opportunity for media mining. However, to efficiently utilize the multi-core processors, we must effectively execute many
threads at the same time. In this paper, we present how to explore the multi-core processors to speed up the computation-intensive
media mining applications. We first parallelize two media mining applications by extracting the coarse-grained parallelism
and evaluate their parallel speedups on a small-scale multi-core system. Our experiment shows that the coarse-grained parallelization
achieves good scaling performance, but not perfect. When examining the memory requirements, we find that these coarse-grained
parallelized workloads expose high memory demand. Their working set sizes increase almost linearly with the degree of parallelism,
and the instantaneous memory bandwidth usage prevents them from perfect scalability on the 8-core machine. To avoid the memory
bandwidth bottleneck, we turn to exploit the fine-grained parallelism and evaluate the parallel performance on the 8-core
machine and a simulated 64-core processor. Experimental data show that the fine-grained parallelization demonstrates much
lower memory requirements than the coarse-grained one, but exhibits significant read-write data sharing behavior. Therefore,
the expensive inter-thread communication limits the parallel speedup on the 8-core machine, while excellent speedup is observed
on the large-scale processor as fast core-to-core communication is provided via a shared cache. Our study suggests that (1)
extracting the coarse-grained parallelism scales well on small-scale platforms, but poorly on large-scale system; (2) exploiting
the fine-grained parallelism is suitable to realize the power of large-scale platforms; (3) future many-core chips can provide
shared cache and sufficient on-chip interconnect bandwidth to enable efficient inter-core communication for applications with
significant amounts of shared data. In short, this work demonstrates proper parallelization techniques are critical to the
performance of multi-core processors. We also demonstrate that one of the important factors in parallelization is the performance
analysis. The parallelization principles, practice, and performance analysis methodology presented in this paper are also
useful for everyone to exploit the thread-level parallelism in their applications.
相似文献
Wenlong LiEmail: |
17.
随着硬件技术的飞速发展,双核乃至多核的计算机的普及,操作系统向多核平台移植的需要也越来越迫切。详细分析操作系统在向多CPU支持的平台移植时可能遇见的伪共享问题及优先级错置问题的产生原因,针对不同情况提出了按规范修改代码、增加内核调度监控线程及将特定程序绑定在单CPU运行等不同对策,并给出了实现方法。 相似文献
18.
本文给出一个在r台机上的实用并行排序算法,并行步数不超过Tr=O(n/r)log2r.log2n),1<r<n. 相似文献
19.
视频监控、备份、归档等应用产生海量存储数据,导致存储能耗急剧增加.S-RAID采用局部并行数据布局,可显著降低该类应用的存储能耗.为使更多磁盘待机节能,S-RAID通常执行"小写"操作,写操作时会额外引入等量的读操作,会显著降低性能.现有预读机制主要发生在文件级,无法感知RAID级小写引发的读旧数据、旧校验数据等读操作,因此不会也无法预读该类数据.为此,提出一种面向S-RAID的RAID级小写预读算法,由小写操作触发并在RAID级执行预读,根据S-RAID的数据布局方式,大粒度异步预读小写需要的旧数据、旧校验数据,有效减少I/O数和寻道数,提高磁盘的利用率.该方法可显著提高S-RAID的写性能,并且不依赖于任何额外硬件,具有更高的可用性. 相似文献