期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

田杭沛高德远樊晓桠朱怡安《计算机研究与发展》2009,46(10)

针对多核多线程处理器中乱序访存影响计算实时性的问题,在对典型访存队列进行研究的基础上提出了一种新的访存队列构建模型及其硬件结构.该模型采用窗口优化算法控制最差情况下的访存延迟,保证访存的实时性,同时又利用优化的乱序调度策略减少访存延迟.实验证明,该访存队列可控制最大访存延迟,与顺序访存相比,存储器具备更高的带宽,与传统的乱序访存相比较,可以充分满足计算的实时性需求,而存储器有效带宽基本不受影响,解决了多核多线程处理器承担实时流计算的基础难题. 相似文献

2.

基于虚通道的SDRAM访存调度器研究

邓让钰谢伦国刘德峰潘国腾《计算机工程与科学》2012,34(1):43-48

随着半导体工艺水平的进步,CPU与存储器的速度差距越来越大,存储器带宽已成为计算机系统的关键资源。根据目前广泛使用的SDRAM存储器多体并行存储的结构特点,提出了一种基于虚通道的访存调度器和最小等待时间-读请求优先调度策略,避免了访存请求之间的数据相关性,加快了访存请求的调度,提高了存储器带宽的利用率。相似文献

3.

面向多媒体SoC的存储体访存负载均衡划分方法

钟祺王晶王克义《计算机辅助设计与图形学学报》2015,27(3)

随着多媒体So C中具备密集访存能力的设备数量增加,设备之间频繁争抢存储体资源,严重影响访存性能.为此提出一种面向多媒体So C的存储体访存负载均衡划分方法.通过操作系统对物理内存的管理,将设备所访问的数据映射到独立的存储体中,避免争抢频繁的设备共享存储体,减少设备间的访存冲突;划分过程基于数据量、延迟分析设备访存行为与访存冲突之间的关系,并以此来均衡各存储体的访问负载,同时提升多个设备的访存性能.该方法不依赖特殊硬件也无需修改上层应用,提供了一种透明的纯软件优化手段.将文中方法应用于真实的多媒体So C的实验结果表明,与基于带宽优先的划分方法相比,该方法在提高带宽利用率的同时降低访存延迟,将解码帧率提升8.4%~12.3%;并且在保证服务质量的情况下,可以通过进一步降低内存工作频率来减少系统功耗. 相似文献

4.

基于增加数据宽度的方法提高访存速度

闫庚哲《微处理机》2014,(6):78-79

低效率的访存操作是限制微处理器性能提高的一个关键因素。因此提高访存速度可以有效改善微处理器的性能。提出了一种基于增加数据宽度的方式来提高访存速度的方法。通过使用多字宽存储器来增加数据带宽,降低失效开销的时钟周期,从而达到提高访存效率的目的。相似文献

5.

基于消息的内存系统关键技术研究

陈明宇阮元黄永兵陈荔城崔泽汉陈明扬《微计算机应用》2013,2(1)

提出了一种基于异步的请求和应答消息的新型访存协议.相比于传统的同步总线式内存体系结构,可变粒度的访存提高了内存带宽的有效利用率,异步消息访问有利于内存容量的扩展.本文通过分析典型应用程序的访存行为评估了消息式内存可能带来的性能提升,并探讨了实现消息式内存所面临的挑战. 相似文献

6.

通用处理器的高带宽访存流水线研究 总被引：1，自引：0，他引：1

张浩林伟周永彬叶笑春范东睿《计算机学报》2009,32(1)

存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体件能平均提高了8.6%. 相似文献

7.

高性能多媒体SoC分组访存调度算法

张广飞汪文祥蒋毅飞苏孟豪《计算机辅助设计与图形学学报》2011,23(9)

根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%. 相似文献

8.

存算解耦合的粗粒度可重构阵列访存结构设计

洪途景乃锋《计算机工程》2021,47(2):239-245

粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。相似文献

9.

面向异构众核从核的数学函数库访存优化方法

许瑾晨郭绍忠黄永忠王磊《计算机科学》2014,41(6):12-17

数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。相似文献

10.

MACT:高通量众核处理器离散访存请求批量处理机制

李文明叶笑春王达郑方李宏亮林晗范东睿孙凝晖《计算机研究与发展》2015,52(6)

网络服务等新型高通量应用的迅速兴起给传统处理器设计带来了巨大的挑战.高通量众核处理器作为面向此类应用的新型处理器结构成为研究热点.然而,随着片上处理核数量的剧增,加之高通量应用的数据密集型特点,“存储墙”问题进一步加剧.通过分析高通量应用访存行为,发现此类应用存在着大量的细粒度访存,降低了访存带宽的有效利用率.基于此分析,在高通量处理器设计中通过添加访存请求收集表(memory access collection table,MACT)硬件机制,结合消息式内存机制,用于收集离散的访存请求并进行批量处理.MACT硬件机制的实现,提高了访存带宽的有效利用率,同时也提高了执行效率;并通过时间窗口机制,确保访存请求在最晚期限之前发送出去,保证任务的实时性.实验以典型高通量应用WordCount,TeraSort,Search为基准测试程序.添加MACT硬件机制后,访存数量减少约49％,访存带宽提高约24％,平均执行速度提高约89％. 相似文献

11.

Modelling, measurement, and simulation of memory interference in the CRAY X-MP

W. Oed O. Lange 《Parallel Computing》1986,3(4):343-358

Memory interleaving and multiple access ports are the key to a high memory bandwidth in vector processing systems. Each of the active ports supports an independent access stream to memory among which access conflicts may arise. Such conflicts lead to a decrease in memory bandwidth and consequently to longer execution times.

We present some analytical results regarding the access in vector mode to an interleaved memory system. In order to demonstrate the practical effects of our analytical results we have done time measurements of some simple vector loops on a 2-CPU, 16-bank CRAY X-MP. By corresponding simulations we obtained the number and type of memory conflicts that were encountered. 相似文献

12.

Memory bandwidth optimization of SpMV on GPGPUs

Chenggang Clarence YAN Hui YU Weizhi XU Yingping ZHANG Bochuan CHEN Zhu TIAN Yuxuan WANG Jian YIN 《Frontiers of Computer Science》2015,9(3):431

It is an important task to improve performance for sparse matrix vector multiplication (SpMV), and it is a difficult task because of its irregular memory access. General purpose GPU (GPGPU) provides high computing ability and substantial bandwidth that cannot be fully exploited by SpMV due to its irregularity. In this paper, we propose two novel methods to optimize the memory bandwidth for SpMV on GPGPU. First, a new storage format is proposed to exploit memory bandwidth of GPU architecture more efficiently. The new storage format can ensure that there are as many non-zeros as possible in the format which is suitable to exploit the memory bandwidth of the GPU. Second, we propose a cache blocking method to improve the performance of SpMV on GPU architecture. The sparse matrix is partitioned into sub-blocks that are stored in CSR format. With the blocking method, the corresponding part of vector x can be reused in the GPU cache, so the time to access the global memory for vector x is reduced heavily. Experiments are carried out on three GPU platforms, GeForce 9800 GX2, GeForce GTX 480, and Tesla K40. Experimental results show that both new methods can efficiently improve the utilization of GPU memory bandwidth and the performance of the GPU. 相似文献

13.

流媒体直播系统的多路并发流自适应传输控制

沈以楼朱艳琴《计算机工程与科学》2012,34(2):35-40

为了解决流媒体直播在Internet中传输带宽不足、用户接入多样性等问题,本文探讨了流媒体在IP网络中一般的传输控制技术,提出了一种基于联播的流媒体实时传输控制策略以适应网络带宽的动态变化。首先通过组播方式以及RTP/RTCP协议实现流媒体的实时传输;之后对自适应传输的算法进行了详细的分析和设计,并采用多线程技术实现了网络状况监测和实时码流切换控制;最后通过研究及实验数据分析对比,证明该方案可提高多路并发流传输效率的有效性,并且可以给客户端用户带来较好的用户体验。相似文献

14.

公平性考虑的短作业优先内存调度策略 总被引：2，自引：0，他引：2

下载免费PDF全文

金瑛棋吴俊敏赵小雨《计算机工程》2012,38(20):243-246

针对片上多核平台下多线程访问共享内存资源的不公平性、低效性问题,提出公平性考虑的短作业优先内存调度策略,采用设置请求最大等待时间保证线程访问公平性,短作业优先策略缩小请求平均等待时间,关注线程本身固有的并行性.实验结果证明,该策略在多线程访问时IPC性能提升明显,最高性能提升达到43％. 相似文献

15.

面向SW26010-Pro的1、2级BLAS函数众核并行优化技术

胡怡陈道琨杨超刘芳芳马文静尹万旺袁欣辉林蓉芬《软件学报》2023,34(9):4421-4436

BLAS (basic linear algebra subprograms)是高性能扩展数学库的一个重要模块,广泛应用于科学与工程计算领域. BLAS 1级提供向量-向量运算, BLAS 2级提供矩阵-向量运算.针对国产SW26010-Pro众核处理器设计并实现了高性能BLAS 1、2级函数.基于RMA通信机制设计了从核归约策略,提升了BLAS 1、2级若干函数的归约效率.针对TRSV、TPSV等存在数据依赖关系的函数,提出了一套高效并行算法,该算法通过点对点同步维持数据依赖关系,设计了适用于三角矩阵的高效任务映射机制,有效减少了从核点对点同步的次数,提高了函数的执行效率.通过自适应优化、向量压缩、数据复用等技术,进一步提升了BLAS 1、2级函数的访存带宽利用率.实验结果显示, BLAS 1级函数的访存带宽利用率最高可达95%,平均可达90%以上, BLAS 2级函数的访存带宽利用率最高可达98%,平均可达80%以上.与广泛使用的开源数学库GotoBLAS相比, BLAS 1、2级函数分别取得了平均18.78倍和25.96倍的加速效果. LU分解、QR分解以及对称特征值问题通过调用... 相似文献

16.

面向稀疏矩阵访存特性的Cache划分

邓林窦勇郑义《计算机工程与科学》2012,34(9):64-70

稀疏矩阵向量乘是许多科学计算的核心,计算中大量的间接和随机访存成为计算的主要瓶颈。本文通过分析稀疏矩阵向量乘运算的数据结构和计算过程,得到计算中不同数据的访存特征,并提出了一种面向数据访存特性的Cache划分方法。对12个稀疏矩阵向量乘的测试表明,本文的Cache划分方法能有效地提高可重用向量的Cache命中率,同时减少计算对Cache空间的需求。相似文献

17.

面向流应用的流寄存器文件

下载免费PDF全文

马驰远陈海燕齐树波陈书明肖嵘《计算机工程》2008,34(18):263-265

存储系统是通用处理器在处理流应用时的瓶颈。该文基于FT64流处理器体系结构,提出一种面向流应用的流寄存器文件结构设计方法和数据传输机制,分析它在FT64中的作用。通过采用大容量、高带宽、虚拟多端口的存储器,将大部分流数据存取操作限制在寄存器文件这一层次,减少了主存压力。实验结果表明,该结构能很好地适应流应用需求。相似文献

18.

Two-stage report generation in long-reach EPON for enhanced delay performance

Burak Kantarci Hussein T. Mouftah 《Computer Communications》2013

Long-reach passive optical networks (LR-PONs), as a part of the next generation PON technologies, aim at combining the capacity of metro and access networks so that the telecommunication network topology is simplified and the operational cost is reduced. However, in order to eliminate the delay performance degradation introduced by long propagation distance, LR-PONs call for bandwidth distribution schemes that are different than the existing schemes for conventional PONs. In this paper, we propose a new bandwidth distribution approach which employs a two-stage buffering mechanism at the ONUs and adopts the reduced delay advantage of multi-thread polling. REPORT generator at an ONU generates the requests by using an adaptive burst assembly process. According to the proposed scheme, ONUs maintain time threshold and size threshold values for the upstream input queues. Upon receipt of a GATE message, each ONU runs an adaptive burst assembly procedure to set the appropriate time and size thresholds and determines the bandwidth request of the REPORT message. We evaluate our proposed bandwidth distribution scheme by simulations for the ONU-OLT distances of 20 km and 100 km. The simulation results confirm that consolidation of multi-thread polling and two-stage buffering enhances the delay performance of long-reach EPON (LR-EPON). Furthermore, under heavy loads, the proposed scheme leads to high utilization of the upstream channel. 相似文献

19.

空间矢量数据细粒度强制查询访问控制模型及其高效实现 总被引：2，自引：0，他引：2

张妍陈驰冯登国《软件学报》2011,22(8):1872-1883

针对敏感空间地理矢量数据形状不规则、跨多级敏感区域分布的特点,对传统的强制访问控制模型进行空间扩展,提出了一种细粒度的空间矢量数据强制查询访问控制模型SV_MAC(spatial vector data mandatory access control model).并进一步将空间数据查询与安全策略检索相结合,提出了一种AR+树(access R+树)索引结构,以在空间矢量数据查询过程中高效地实现SV_MAC授权判定.实验结果表明,AR+树在为空间矢量数据的检索提供不可绕过的细粒度安全防护的同时,保障了前台响应速率和用户体验. 相似文献