期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李明江段星辉陈仁《计算机工程与设计》2021,42(9):2696-2700,后插1

针对不带大容量缓存的固态存储设备随机读取性能差的问题,提出预取和压缩用户热数据映射表的算法,来提升热数据的访问速度.该算法包括把顺序写入的数据和随机写入的数据分开存储、压缩连续物理地址映射、后台预取热数据映射表等方法,这些方法提升了热数据的映射命中率,减少了闪存的访问次数,达到了改善系统读取性能的目的.实验结果表明,该方法能减少将近一半的随机读取延时,读取速度在原来的基础上翻倍.该算法能显著改善那些不带大容量缓存的移动存储设备及消费级固态硬盘使用者的用户体验. 相似文献

2.

基于数组分块的FPGA高级综合编译优化算法

张茉莉杨海钢崔秀海李园强《计算机应用研究》2013,30(11):3349-3352

针对FPGA高级综合中提高矩阵存储并行的问题, 提出了一种基于数组分块的编译优化算法, 用来优化以矩阵乘法为代表的矩阵应用。算法在LLVM编译器架构下对访存密集的数组进行分块, 然后对迭代空间进行对应的合并, 最后修改迭代空间与数据空间之间的数据访问。与AutoESL循环展开算法的实验对比表明, 在分块数目最优的情况下, 矩阵乘法电路的延时平均被降低46%, 资源平均被降低39%。因而该基于数组分块的高级综合编译优化算法能有效降低电路延时和资源使用量。相似文献

3.

国产SW26010-Pro处理器上3级BLAS函数众核并行优化

胡怡陈道琨杨超马文静刘芳芳宋超博孙强史俊达《软件学报》2024,35(3):1569-1584

BLAS (basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外, BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access, RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access, DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术... 相似文献

4.

系统

《电脑爱好者》2009,(10)

傻博士有话说:图标缓存就是专门在内存中开辟出一部分空间,将用户最近使用过的程序图标记录下来,当用户稍后再次访问这些图标时,直接从缓存中读取以提高访问速度。当然,当系统关闭时,在内存中开辟的那部分缓存空间中的数据就会被暂时保存到硬盘中,下次重新启动系统后,再从硬盘中将数据读取到内存中。而当图标缓存出现问题时会相似文献

5.

存算解耦合的粗粒度可重构阵列访存结构设计

洪途景乃锋《计算机工程》2021,47(2):239-245

粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。相似文献

6.

面向可重构编译技术的RAM访问优化算法

下载免费PDF全文

杨敏吴艳霞顾国昌孙延腾《计算机工程》2011,37(2):284-285

在基于低层虚拟机的四层C-to-VHDL可重构编译架构上,针对RAM访问和设计执行性能之间的矛盾,提出一种RAM读取优化算法。通过对IR访存指令及数据相关性的分析,创建专用数据通路,优化RAM的访存过程。实验结果表明,该优化算法能够有效减少RAM访问次数。相似文献

7.

基于矩阵转换的卷积计算优化方法

方玉玲陈庆奎《计算机工程》2019,45(7)

提出一种基于矩阵转换的高效卷积计算优化方法MCFA。根据输出矩阵的宽度和卷积核大小对输入矩阵进行分块,通过im2col方法转换输入矩阵子块和核函数矩阵,利用计算统一设备架构中封装的矩阵-矩阵乘法加速库提升卷积计算的速度。在此基础上,将输出子块按序排列,最终得到完整的输出矩阵。实验结果证明,该方法相比im2col方法能节省61.25%的计算空间,相比MEC方法能提高20.57%的计算速度,且在分块情况下可以缓解大输入矩阵引起的缓存压力,提高缓存利用率。相似文献

8.

面向SSD寿命优化的访问序列折叠缓存替换算法*

唐琪王吉磊柴云鹏《计算机科学与探索》2019,13(1):35-44

SSD(solid state drive)的写入寿命比较有限,因此除命中率外,SSD缓存设备的写入量成为评价缓存替换算法的另一个关键指标。如何使算法提高写入数据转化为缓存命中的效率,从而延长SSD的使用寿命,具有重要的研究意义。目前,已有缓存替换算法的设计一般基于时间局部性,即刚被访问的数据短期内被访问的概率较高,因此需要频繁的数据更新和较高写入量来保证较高命中率;或是通过不低的开销屏蔽相对最差的部分数据来减少一定的写入量,还缺少用低开销获得数据长期热度规律,有效提高缓存数据质量的算法。提出了访问序列折叠的缓存替换算法,用比较低的开销定位拥有长期稳定热度的数据写入缓存,明显提高了SSD缓存数据质量,在保证命中率的同时减少了SSD的写入量。实验表明,访问序列折叠算法相比LRU(least recently used)算法可在命中率损失低于10%的情况下减少90%的写入量,与SieveStore、L2ARC(level2 adjustable replacement cache)等写入优化缓存算法相比,命中率相当时可将写入量减少50%以上,有效达到了通过缓存高质量数据,减少SSD的写入量,延长其使用寿命的目的。相似文献

9.

一种基于页面级流缓存结构的流检测和预取算法

刘立陈明宇包云岗许建卫樊建平《计算机研究与发展》2009,46(10)

为了提高网络内存的访存性能,基于一种页面级流缓存和预取结构提出了可变步长的带状流检测算法VSS(variable stride stream)和基于时钟步长的流预取优化算法来优化网络访存性能.带状流检测算法解决了固定步长流检测下循环访问中虚拟页地址的跳跃问题,消除了断流,可以有效提高流检测的覆盖率.基于时钟步长的流预取优化动态调整预取长度,可以解决有些预取不能及时取回的问题,进一步提高预取性能.通过和顺序预取算法的比较可以看出,VSS算法可以实现高准确率、低通信开销的预取.通过模拟分析了这种流缓存和预取机制在网络访存系统中的应用,验证了以少量性能下降换取灵活的远程内存扩展方法的可行性. 相似文献

10.

为应用服务器添加Web层静态文件缓存功能 总被引：1，自引：0，他引：1

周小波宋普选曹元大《计算机工程与应用》2005,41(32):97-99

为提高访问效率,在内存中开辟一块空间,将访问过的静态文件保存起来,下次再访问该文件的时候直接从内存中返回内容而不从磁盘读取。文章实现了一种基于LRU淘汰算法的静态文件缓存功能。该缓存功能不与特定的服务器相关,具有良好的可移植性。相似文献

11.

面向稀疏矩阵访存特性的Cache划分

邓林窦勇郑义《计算机工程与科学》2012,34(9):64-70

稀疏矩阵向量乘是许多科学计算的核心,计算中大量的间接和随机访存成为计算的主要瓶颈。本文通过分析稀疏矩阵向量乘运算的数据结构和计算过程,得到计算中不同数据的访存特征,并提出了一种面向数据访存特性的Cache划分方法。对12个稀疏矩阵向量乘的测试表明,本文的Cache划分方法能有效地提高可重用向量的Cache命中率,同时减少计算对Cache空间的需求。相似文献

12.

A new software cache structure on Sunway TaihuLight

Li Jianjiang Deng Zhaochu Du Panpan Lin Jie 《The Journal of supercomputing》2022,78(4):4779-4798

The Sunway TaihuLight is the first supercomputer built entirely with domestic processors in China. On Sunway Taihulight, the local data memory (LDM) of the slave core is limited, so data transmission with the main memory is frequent during calculation, and the memory access efficiency is low. On the other hand, for many scientific computing programs, how to solve the storage problem of irregular access data is the key to program optimization. Software cache (SWC) is one of the effective means to solve these problems. Based on the characteristics of Sunway TaihuLight structure and irregular access, this paper designs and implements a new software cache structure by using part of the space in LDM to simulate the cache function, which uses new cache address mapping and conflicts solution to solve high data access overhead and storage overhead in a traditional cache. At the same time, the SWC uses the register communication between the slave cores to share on the different slave core LDMs, increasing the capacity of the software cache and improving the hit rate. In addition, we adopt a double buffer strategy to access regular data in batches, which hides the communication overhead between the slave core and the main memory. The test results on the Sunway TaihuLight platform show that the software cache structure in this paper can effectively reduce the program running time, improve the software cache hit rate, and achieve a better optimization effect.

相似文献

13.

普适计算中基于上下文信息的缓存管理算法

陈慕冰赵季中郗旻齐勇马兆丰《小型微型计算机系统》2007,28(10):1793-1798

普适计算的一个常见的难题是断连操作,而移动设备在断连状态下对数据进行操作又是必要的.为了支持断连操作,需要在移动客户端上进行数据缓存.数据收集的目的是在断连前把用户将来可能访问的数据预先存储到本地缓存,因此收集过程的结果将对断连操作的性能产生重大影响.目前针对断连操作的数据收集算法,对缓存命中都有一定效果,为了进一步提高缓存命中率,本文根据上下文信息进行数据收集算法;然后在访问数据时同步建立数据之间的关联,并在数据关联的基础上自动选择要收集的数据集;最后将结果按缓存驻留时间和访问次数进行缓存替换.模拟试验结果表明,此算法对于存储容量小的手持移动设备可以有效地提高断连操作时的缓存命中率,可以更好的支持移动设备的断连操作. 相似文献

14.

Spark平台下类别数据互信息计算的并行化

下载免费PDF全文

李俊丽《计算机工程与应用》2021,57(7):95-100

针对大规模类别数据的互信息计算量非常大的问题,利用Spark内存计算平台,提出了类别数据的并行互信息计算方法,该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了类别数据特征对间互信息计算量大、重复性强的问题;最后在配备了24个计算节点的Spark集群中,使用人工合成和真实数据集验证了算法。实验结果表明,该算法在效率、可伸缩性和可扩展性等方面都达到了较高的性能。相似文献

15.

面向大数据应用的众核处理器缓存结构设计

下载免费PDF全文

万虎徐远超孙凤芸闫俊峰《计算机工程与科学》2015,37(1):28-35

大规模数据排序、搜索引擎、流媒体等大数据应用在面向延迟的多核/众核处理器上运行时资源利用率低下,一级缓存命中率高,二级/三级缓存命中率低,LLC容量的增加对IPC的提升并不明显。针对缓存资源利用率低的问题,分析了大数据应用的访存行为特点,提出了针对大数据应用的两种众核处理器缓存结构设计方案,两种结构均只有一级缓存,Share结构为完全共享缓存,Partition结构为部分共享缓存。评估结果表明,两种方案在访存延迟增加不多的前提下能大幅节省芯片面积,其中缓存容量较低时,Partition结构优于Share结构,缓存容量较高时,Share结构要逐渐优于Partition结构。由于众核处理器中分配到每个处理器核的容量有限,因此Partition结构有一定的优势。相似文献

16.

整数变换在VLIW DSP上的优化与仿真

白琳罗玉平《计算机仿真》2007,24(4):310-312

支持超长指令字（Very Long Instruction Word，VLIW）DSP的应用越来越广泛，而H．264视频压缩算法在向此类DSP平台上移植时，由于程序结构设计不合理、数据结构冗余等原因，导致缓存命中率下降，DSP的利用率降低。因此研究最新的视频压缩算法H．264／AVC在此类DSP上的优化就显得越发重要。文中介绍了VLIW DSP的体系结构特点，并研究分析了基于这些特点而提高H．264中整数变换模块运行速度的优化方法，最后在VLIW DSP平台上利用这些方法对H．264的整数变换模块进行了优化与仿真。优化后的整数变换速度为优化前的2倍以上。相似文献

17.

集群下Cholesky分解的核外预取算法

刘凤刘青昆《微型机与应用》2011,30(4)

核外计算中,由于I/O操作速度比较慢,所以对文件的访阿时间占的比例较大.如果使文件操作和计算重叠则可以大幅度地提高运行效率.软件数据预取是一种有效的隐藏存储延迟的技术,通过预取使数据在实际使用之前从硬盘读到缓存中,提高了缓存(cache)的命中率,降低了读取数据的时间.通过设置两个缓冲区来轮流存放本次和下一次读入的数据块,实现访存完全命中cache的效果,使Cholesky分解并行程序执行核外计算的效率得到了大幅度的提高.同时,I/O操作的时间与CPU的执行时间的比例也是影响效率的主要因素. 相似文献

18.

Shear–rotation–warp volume rendering

Heewon Kye Byeong‐Seok Shin Yeong Gil Shin Helen Hong 《Computer Animation and Virtual Worlds》2005,16(5):547-557

Shear–warp volume rendering has the advantages of a moderate image quality and a fast rendering speed. However, in the case of dynamic changes in the opacity transfer function, the efficiency of memory access drops, as the method cannot exploit pre‐classified volumes. In this paper, we propose an efficient algorithm that exploits the spatial locality of memory references for interactive classifications. The algorithm inserts a rotation matrix when factorizing the viewing transformation, so that it may perform a scanline‐based traversal in both object space and image space. In addition, we present solutions to some problems of the proposed method, namely inaccurate front‐to‐back composition, the occurrence of holes, and increased computation. Our method is noticeably faster than traditional shear‐warp rendering methods because of an improved utilization of cache memory. Copyright © 2005 John Wiley & Sons, Ltd. 相似文献

19.

Pentium4处理器的内存层次分析 总被引：2，自引：0，他引：2

吴金齐欢《微机发展》2004,14(7):47-48,51

处理器存储系统的效率对其整体性能有着十分重要的作用。文中介绍了P4处理器内存的体系结构，它包括一级数据Cache、二级Cache、Trace Cache；各部分完成的功能以及为提高命中率和降低存取时间，从而提高效率而采取的预取处理机制；P4处理器主要采取具有层次结构的内存设计、大容量的二级Cache和在跟踪Cache中采用预取处理机制的方法来提高Cache的命中率和降低未命中的代价来缩短处理器的访问时间，最终达到提高处理器整体性能的目的。相似文献

20.

The use of intermediate memories for low-latency memory access in supercomputer scalar units

Gurindar S. Sohi Wei-Chung Hsu 《The Journal of supercomputing》1990,4(1):5-21

One of the prime considerations for high scalar performance in supercomputers is a low memory latency. With the increasing disparity between main memory and CPU clock speeds, the use of an intermediate memory in the hierarchy becomes necessary. In this paper, we present an intermediate memory structure called a programmable cache. A programmable cache exploits structural locality to decrease the average memory access time. We evaluate the concept of a programmable cache by using the vector registers in the CRAY X-MP and Y-MP supercomputers as a programmable cache. Our results indicate that a programmable cache can be used profitably to reduce the memory latency if the pattern of references to a data structure can be determined at compile time.The work of the first author was supported in part by NSF Grant CCR-8706722. 相似文献