期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄安文高军张民选《计算机工程》2010,36(4):4-6

针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。相似文献

2.

OpenMP数据分布子句自动生成算法

黄品丰赵荣彩韩林刘晓娴《计算机工程》2013,39(3):295-299

将OpenMP程序扩展到异构多核结构时,非本地存储访问会导致访存开销增加,影响程序性能。针对该问题,引入带数组划分信息的数据分布子句,对数据在异构多核存储系统的布局进行管理,提出一种基于并行循环识别和数组引用模式分析的算法,实现该类子句的自动生成。实验结果表明,自动生成的OpenMP程序包含数据分布子句,具有较好的数据局部性,可降低访存开销,在异构多核系统上获得明显的性能提升。相似文献

3.

快速地址计算的自适应栈高速缓存

郇丹丹李祖松王剑章隆兵胡伟武刘志勇《计算机研究与发展》2007,44(1):169-176

随着存储系统的访问速度与处理器运算速度的差距越来越显著,访存性能已成为提高处理器性能的瓶颈.通过对程序的访存行为进行分析,提出快速地址计算的自适应栈高速缓存方案.该方案将栈访问从数据高速缓存的访问中分离出来,充分利用栈空间数据访问的特点,提高指令级并行度,减少数据高速缓存污染,降低数据高速缓存失效率,并采用快速地址计算策略,减少栈访问的命中时间.该栈高速缓存在发生栈溢出时能够自适应地关闭,以避免栈切换对处理器性能的影响.栈高速缓存标志中增加进程标识,进程切换时不需要将数据写到低层存储系统中,适用于多进程环境.SPEC CPU2000程序运行结果表明,采用快速地址计算的自适应栈高速缓存方案,25.8%的访存指令可以并行执行,数据高速缓存失效率平均降低9.4%,IPC值平均提高6.9%. 相似文献

4.

面向可重构编译技术的RAM访问优化算法

下载免费PDF全文

杨敏吴艳霞顾国昌孙延腾《计算机工程》2011,37(2):284-285

在基于低层虚拟机的四层C-to-VHDL可重构编译架构上,针对RAM访问和设计执行性能之间的矛盾,提出一种RAM读取优化算法。通过对IR访存指令及数据相关性的分析,创建专用数据通路,优化RAM的访存过程。实验结果表明,该优化算法能够有效减少RAM访问次数。相似文献

5.

基于PCM的GPU存储系统设计与优化

穆帅单书畅邓仰东王志华《计算机科学》2013,40(10):29-31,71

以相变存储器(PCM)为代表的新型非易失存储器,具有存储密度高和静态功耗低等传统动态随机存取存储器(DRAM)不具备的优势,但是过长的写操作延时会严重影响访存的性能.设计了基于PCM的图形处理器(GPU)中的存储系统.仿真结果显示,GPU程序中的内存写请求分布极不均匀,对少量的内存地址有非常高的访问频率.面向访存分布不均匀特点的专用缓冲单元设计,能够有效地存储频繁访问的内存数据,从而减少对PCM的访问次数,消除过长的写操作延时对系统性能的负面影响.GPU仿真器上的结果显示,基于缓冲单元的PC以存储系统能够有效地提高GPU的运算性能. 相似文献

6.

面向异构众核从核的数学函数库访存优化方法

许瑾晨郭绍忠黄永忠王磊《计算机科学》2014,41(6):12-17

数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。相似文献

7.

对角线稀疏矩阵的 SpMV 自适应性能优化

陈炳彰刘伟于萧钰《计算机研究与发展》2024,47(4):824-839

图应用是大数据领域的一个重要分支,尽管图分析在显示表示实体之间关系的能力相比传统的关系数据库具有更显著的性能优势,但图处理中大量的随机访问所导致的不规则访存模式破坏了访存的时间和空间局部性,从而对片外内存系统造成了很大的性能压力. 因此如何正确度量图应用在内存系统中的性能,对于高效的图应用体系结构优化设计至关重要. 并发式平均存储访问时间（concurrent average memory access time,C-AMAT）模型作为平均存储访问时间（average memory access time,AMAT）的扩展,同时考虑了存储器访问的局部性和并发性,能够更准确地对现代处理器下图应用在存储系统中的性能进行评估分析. 但C-AMAT 模型忽略了处理器下级cache层串行访问的事实,这会导致计算的不准确性,同时由于计算所需参数纯粹缺失周期等难以获取的原因,也使得C-AMAT难以进行实际应用. 为了使C-AMAT的计算模型与现代计算机中的存储器访问模式相匹配,基于C-AMAT提出了PC-AMAT（parallel C-AMAT）,SC-AMAT（serial C-AMAT）,其中PC-AMAT,SC-AMAT分别从cache的并行和串行访问模式对C-AMAT的计算模型进行了细粒度的扩展和表征,并在此基础上设计并实现了纯粹缺失周期的提取算法,避免直接测量带来的巨大硬件开销. 实验结果表明,在单核和多核模式下,PC-AMAT和SC-AMAT与IPC之间的相关性比C-AMAT更强,最终利用PC-AMAT和SC-AMAT度量和分析了图应用的存储器性能并据此提出图应用访存优化策略.

相似文献

8.

针对内核模块访存错误的内存检测方法

纪程陈香兰李曦《计算机系统应用》2014,23(12):142-148

分析了Linux 内核模块特点,针对内核模块中二进制指令执行时带来的访存错误,设计了一种针对内核模块的静态检测方法。通过模拟内核模块中指令的执行,并比较访存指令请求与相关内存区域信息,静态检测方法目标是找出代码对内存的非法访问,并对可疑的访存行为发出警告。针对 ARM 处理器平台,给出了静态检测方法的具体实现,并对内核模块中的访存错误就行了检测验证。实验表明,静态检测方法能够有效找出包括地址越界访问、读未初始化内存、访问已释放内存等访存错误,本文的静态检测方法达到了预期的检测效果。相似文献

9.

LRU页面置换算法的改进与实现

下载免费PDF全文

赵俊化胡金霞《计算机工程》2012,38(17):24-27

为简化嵌入式虚拟内存的实现,改善嵌入式虚拟内存的性能,在对常见页面置换算法进行对比分析的基础上,提出一种改进的最久未使用页面置换算法。该算法基于内存管理单元、跨页访问计数器、访问次序寄存器、溢出中断处理等软硬件相结合的技术。实验结果表明,该算法能提高嵌入式系统的页面置换效率,提升系统的整体性能,可广泛应用于各种物联网系统和嵌入式系统。相似文献

10.

面向应用的流存储系统评测与改进

汪芳安虹徐光许牧姚平《小型微型计算机系统》2010,31(5)

有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能. 相似文献

11.

一个基于孙子定理的素数存储系统方案

高庆狮刘志勇《计算机研究与发展》1995,32(5):1-7

基于孙子定理,本提出一个素数存储系统方案。该方案既不浪费存储空间,且为实本系统仅需计算“ｄｍｏｄｐ”,而无需计算商。因此,本系统是一高效存储方案。相似文献

12.

事务内存机制在系统安全中的应用:现状与展望

下载免费PDF全文

李从午林锵璟蔡权伟罗勃《信息安全学报》2019,4(6):45-55

为了提高并行程序中共享内存数据的读写访问性能,事务内存机制于1993年被提出。因为事务内存机制直接涉及内存数据的读写控制,所以也得到了系统安全研究人员的极大关注。2013年,Intel公司开始支持TSX（Transactional Synchronizatione Xtension）特性,第一次在广泛使用的计算机硬件中支持事务内存机制。利用事务内存机制的内存访问跟踪、内存访问信号触发和内存操作回滚,以及Intel TSX特性的用户态事务回滚处理、在Cache中执行所有操作和硬件实现高效率,研究人员完成了各种的系统安全研究成果,包括：授权策略实施、虚拟机自省、密钥安全、控制流完整性、错误恢复和侧信道攻防等。本文先介绍了各种基于事务内存机制的研究成果;然后分析了现有各种系统安全研究成果与事务内存机制特性之间的关系,主要涉及了3个角度：内存访问的控制、事务回滚处理、和在Cache中执行所有操作。我们将已有的研究成果的技术方案从3个角度进行分解,与原有的、不基于事务内存机制的解决方案比较,解释了引入事务内存机制带来的技术优势。最后,我们总结展望了将来的研究,包括：硬件事务内存机制的实现改进,事务内存机制（尤其是硬件事务内存机制）在系统安全研究中的应用潜力。相似文献

13.

基于虚通道的SDRAM访存调度器研究

邓让钰谢伦国刘德峰潘国腾《计算机工程与科学》2012,34(1):43-48

随着半导体工艺水平的进步,CPU与存储器的速度差距越来越大,存储器带宽已成为计算机系统的关键资源。根据目前广泛使用的SDRAM存储器多体并行存储的结构特点,提出了一种基于虚通道的访存调度器和最小等待时间-读请求优先调度策略,避免了访存请求之间的数据相关性,加快了访存请求的调度,提高了存储器带宽的利用率。相似文献

14.

LNMS网络内存系统及性能优化技术

孙国忠袁清波陈明宇樊建平《计算机工程》2007,33(24):16-18

在Linux环境下设计并实现了一个两级服务结构的网络内存系统(LNMS)。LNMS较传统网络内存系统具有更好的可扩展性。对LNMS提出了两种性能优化技术：预取和主动内存技术。在预取优化方面,针对并发应用提出一种M-PPM算法。主动内存技术则发掘了内存服务器的计算能力。实验表明,两种优化技术可有效地提升网络内存系统的性能。相似文献

15.

一种支持向量无冲突访问的质数存储器系统设计方案

孙彤方滨兴《计算机研究与发展》1995,32(5):63-65,F004

ＳＩＭＤ体系结构步入低谷的原因之一是还滑有一个很好的存储器无冲突访问算法。从访问模式的覆盖面来，无疑质数模式最理想的。早在七十年代末的ＢＳＰ并行计算机上就采用了质数存储器的，量由于其它一些问题没有解决，因而带来一些弊端，包括采用交叉开关的实现技术，旨央储空间的记存方式，荐储个数与处理器个数不同等。本文采用了新的实现方式，因而不再存在上述三个问题。相似文献

16.

基于Hash+链表索引的专用型内存数据库系统的设计与实现

黄炜《电脑与信息技术》2011,19(3):52-55

文章研究了内存数据库管理系统的原理和关键技术,根据移动短信监控系统中内存数据库的特点,设计和实现了一个基于Hash+链表索引的专用型内存数据库系统,用于解决垃圾短信分析系统中海量短信的存取问题. 相似文献

17.

私有Cache的选择对紧耦合多处理机系统访存冲突的影响

邢二保周兴铭《计算机工程》1993,19(3):32-37

相似文献

18.

Windows CE内存访问原理分析与研究

下载免费PDF全文

付腾桂王健《计算机工程》2009,35(13):61-62,6

针对Windows CE流接171驱动程序,通过嵌入指针访问应用程序内存区域时出错的案例,分析错误产生的原因,阐述一些有关Windows CE内存访问的重要概念,包括指针参数、嵌入指针、同步访问、访问检查和内存整理,从而提出对嵌入指针进行内存整理的解决方法。结果证明该方法可以有效地解决异步内存访问出错的问题。相似文献

19.

基于ESCA系统的层次化显式访存机制研究 总被引：1，自引：0，他引：1

下载免费PDF全文

饶金理吴丹陈攀董冕邓承诺戴葵邹雪城《计算机工程》2011,37(22):24-27

针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏能够占据整体运行时间的56%,并获得1.5倍的加速比,能弥补计算与存储访问间的速度差异,提高系统计算效率。相似文献

20.

Latency hiding on COMA multiprocessors

Tarek S. Abdelrahman 《The Journal of supercomputing》1996,10(3):225-242

Cache-only memory access (COMA) multiprocessors support scalable coherent shared memory with a uniform memory access programming model. The local portion of shared memory associated with a processor is organized as a cache. This cache-based organization of memory results in long remote memory access latencies. Latency-hiding mechanisms can reduce effective remote memory access latency by making data present in a processor's local memory by the time the data are needed. In this paper we study the effectiveness of latency-hiding mechanisms on the KSR2 multiprocessor in improving the performance of three programs. The communication patterns of each program are analyzed and the mechanisms for latency hiding are applied. Results from a 52-processor system indicate that these mechanisms hide a significant portion of the latency of remote memory accesses. The results also quantify benefits in overall application performance.An earlier version of this paper was presented at the 1995 International Conference on Parallel Processing Techniques and Applications. 相似文献