期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王海峰陈庆奎《计算机学报》2013,36(4)

当前图形处理器的通用计算取得长足发展,为适应通用计算图形处理器在硬件体系结构和软件支持方面完成相应调整和改变,面对各种应用领域中数据规模增大的趋势,多GPU系统和GPU集群的研究应用日趋增多.以流处理器及图形处理器硬件体系为依据,介绍学术和工业领域中流处理器及图形处理器体系变化趋势.从软件编程环境、硬件计算与通信等方面展开讨论,阐述通用计算中图形处理器的关键问题,包括编程模型及语言的发展和方向,存储模型的量化研究、访存模式和行为的优化以及分布式存储管理的热点问题,典型通信原型系统的对比及通信难点的分析,GPU片内和片间的负载均衡,可靠性和容错计算,GPU功耗评测及低功耗优化的研究进展.综述在海量数据处理、智能计算、复杂网络、集群应用领域中图形处理器的研究进展及成果.总结在通用计算发展中存在的技术问题和未来挑战. 相似文献

2.

基于图形处理器的通用计算模式*

王磊张春燕《计算机应用研究》2009,26(6):2356-2358

针对GPU图形处理的特点,分析其应用于通用计算的并行处理机制和数据映射,提出了一种GPU通用计算模式的映射机制和一般性设计方法,并针对GPU的吞吐量、数据流处理能力和基本数学运算能力等进行性能测试,为GPU通用计算的算法设计、实现和性能优化提供参考依据。相似文献

3.

缓存关联对数据库系统性能的影响及其优化策略

冯柯陈刚董金祥《计算机科学》2005,32(3):79-82

研究了缓存关联对数据库系统性能的影响,并提出了一种优化策略,大大降低了数据访问时对缓存的争用。该优化技术实现简单,对已有系统改动小,已经实现并应用于开放源代码数据库系统Postgres和MySQL,以及自主开发的CoreBase数据库系统中,测试结果表明：数据库的查询速度得到了极大的提高。相似文献

4.

通用图形处理器功耗估算模型

《计算机工程》2017,(2)

为精准快速地获得GPU功耗数据,提出一种基于硬件性能计数事件的通用图形处理器(GPGPU)功耗估算方法。通过分析GPGPU程序运行时的功耗分布情况,选择一组与应用程序运行功耗密切相关的硬件性能计数事件集合,使用反向传播人工神经网络分析硬件性能计数事件与实时功耗间的关系,最终建立GPGPU功耗估算模型。实验结果表明,与多元线性回归的功耗估算模型相比,该模型具有更高的估算准确性和通用性。相似文献

5.

图形处理器通用计算的实现与验证

下载免费PDF全文

齐记杨孔庆杨磊《计算机工程与应用》2009,45(33):67-69

讨论了显示卡用于通用科学计算的问题,并以大型矩阵的基本运算问题详细比较了CPU和GPU计算之间的差别。在基本的矩阵运算中,运用适当的矩阵分块,GPU的计算速度比CPU快50倍左右。而且,显示卡低廉的价格为更多科研工作者实现大规模运算提供了可能。相似文献

6.

一种用于通用处理器结构优化的矩阵乘法性能模型

朱海涛李玲陈云霁钱诚《小型微型计算机系统》2012,33(5):981-986

矩阵乘法作为高性能计算中的关键组成部分,是一种具有计算和访存密集特点的典型应用,因此优化矩阵乘法的性能对通用处理器是非常重要的.为了提高矩阵乘法的性能,本文提出了一种性能模型,用于预测通用处理器上矩阵乘法的执行时间.该模型反映了矩阵乘法执行时间与通用处理器的运算部件、访存带宽、寄存器个数等结构参数之间的关系,可以指导处理器结构的优化来平衡计算和访存能力、提高执行速度.基于该模型本文给出了在一个优化的通用处理器结构中,寄存器个数和访存带宽应满足的理论下界.本文在Godson-3B处理器平台上对该性能模型进行了验证,实验结果表明矩阵乘法执行时间的预测精确度达到95％以上.基于该模型,本文还提出了一种对Godson-3B结构进行优化的方法,使矩阵乘法的执行时间减少了50％左右. 相似文献

7.

硬盘子系统性能优化方法

杨少波《新浪潮．学网络》1990,(4):47-48

相似文献

8.

图形处理器在通用计算中的应用 总被引：1，自引：1，他引：0

张健陈瑞《计算机工程与设计》2009,30(14)

基于图形处理器(GPU)的计算统一设备体系结构(compute unified device architecture,CUDA)构架,阐述了GPU用于通用计算的原理和方法.在Geforce8800GT下,完成了矩阵乘法运算实验.实验结果表明,随着矩阵阶数的递增,无论是GPU还是CPU处理,速度都在减慢.数据增加100倍后,GPU上的运算时间仅增加了3.95倍,而CPU的运算时间增加了216.66倍. 相似文献

9.

图形处理器在分层聚类算法中的通用计算研究* 总被引：1，自引：0，他引：1

李琳李肯立朱雅丽《计算机应用研究》2008,25(8):2319-2321

ROCK是一种采用数据点间的公共链接数来衡量相似度的分层聚类方法,该方法对于高维、稀疏特征的分类数据具有高效的聚类效果。其邻接度矩阵计算是影响时间复杂度的关键步骤,将图形处理器(GPU)强大的浮点运算和超强的并行计算能力应用于此步骤,而其余步骤由CPU完成。基于GPU的ROCK算法的运算效率在AMD 643500+ CPU和NVIDIA GeForce 6800 GT显卡的硬件环境下经过实验测试,证明其运算速度比完全采用CPU计算速度要快。改进的分层聚类算法适合在数据流环境下对大量数据进行实时高效的聚类的相似文献

10.

多核缓存优化技术研究综述

闵庆豪张为华《计算机系统应用》2015,24(1):1-8

随着多核技术的迅速发展,并发处理和大批量数据操作成为主流,而为了应对更加复杂的程序行为和愈发庞大的数据量,缓存系统的效率也正面临着严重的挑战.如何在复杂的多核环境中更高效的使用缓存,提高缓存响应速度和数据吞吐量一直是体系结构领域的重要课题和研究热点.针对多核环境中缓存的应用场景进行分析,从缓存的效率,内容和共享使用三个角度进行归纳和总结,提出缓存应用的时延问题,容量问题,共享问题等具有针对性的问题,并且对针对这些具体问题和情境的缓存优化技术进行总结和综述,同时对缓存优化的一些新技术和新的优化角度进行探讨,最后对多核缓存优化技术的发展前景进行展望. 相似文献

11.

基于现代通用处理器的数据库优化综述 总被引：1，自引：0，他引：1

邓亚丹景宁熊伟《计算机科学》2009,36(8):17-20

随着硬件技术的不断发展,计算机性能不断加强,数据库的性能也日益提高.但也造成了一些新问题,比如Cache延迟的加剧、Cache访问冲突等.针对这些新问题,按照各种优化技术的分类,深入分析了近10年来现代处理器用于数据库算法优化的各种研究成果,并展望了未来基于新硬件的数据库优化的发展趋势. 相似文献

12.

基于缓存估算模型的代码测试系统性能优化方法

徐教显王雅文《软件》2013,(12):10-13

为了解决代码测试系统测试C项目的时间开销较大这一问题,本文提出了一种基于缓存估算模型的性能优化方法。该方法向代码测试系统中引入了缓存技术,并且建立了缓存规模估算模型。不相似的C项目应用该模型计算出的缓存规模是不一样的。使用缓存规模估算模型后,代码测试系统文件缓存的规模能够随着C项目的改变而发生改变,具有动态变化的能力。缓存估算模型已在系统中实现,对4个开源C项目的测试结果表明：该优化方法能有效地提高代码测试系统测试C项目时的时间性能。相似文献

13.

图形处理器在数据管理领域的应用研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

周国亮冯海军何国明陈红《计算机科学与探索》2010,4(4):289-303

比较了中央处理器和图形处理器体系结构的异同,并简要介绍了最新的图形处理器通用计算平台及不同体系结构间并行算法的异同。详细叙述了图形处理器在空间数据库、关系数据库、数据流和数据挖掘及信息检索等方面应用的技术特点;探讨了基于图形处理器的各种内外存排序算法及性能;描述了基于图形处理器的各种数据结构和索引技术;阐述了图形处理器算法优化方面的工作。最后,展望了图形处理器应用于数据管理的发展前景,并分析了这一领域未来所面临的挑战。相似文献

14.

众核处理器的共享一级指令缓存研究

张昆刘骁郑方谢向辉《计算机工程与科学》2017,39(5):834-840

众核处理器设计在芯片面积上受到了巨大挑战,如何将有限的芯片面积投入到运算能力中,是众核处理器体系结构研究的热点。聚焦众核处理器的指令缓存结构设计,研究通过在多核核心之间共享一级指令缓存,以获取指令系统及处理器流水线性能的提升。给出了共享指令缓存的结构设计,对该结构进行了节拍级精确的性能模拟,并通过RTL级代码的综合得到了面积开销和时序指标。测试结果表明,共享指令缓存可以降低11%~27%的缓存脱靶率,提升4%~7%的流水线性能。相似文献

15.

片上多核处理器Cache一致性协议优化研究综述

胡森森计卫星王一拙陈旭付文飞石峰《软件学报》2017,28(4):1027-1047

现代晶体管技术在单芯片上集成多个处理器已经成为现实.近年来,随着多核处理器集成核数的不断增加,高速缓存的一致性问题凸显出来,已成为多核处理器的性能瓶颈之一,亟待解决.本文介绍了片上多核处理器一致性问题的由来.总结了多核时代高速缓存一致性协议设计的关键问题,综述了近年来学术界对一致性的研究.从程序访存行为模式、目录组织结构、一致性粒度、一致性协议流量、目录协议的可扩展性等方面,阐述了近年来缓存一致性协议性能优化的方向.对目前片上多核处理器缓存一致性协议设计中存在的问题进行了讨论,并指出了未来进一步研究的方向. 相似文献

16.

Proto-Perf：快速精确的通用处理器原型系统性能评估方法

郭辉黄立波郑重隋兵才王永文《计算机工程与科学》2021,43(4):579-585

性能验证及评估是通用处理器设计实现过程中最重要且必须实施的关键步骤之一.高效的通用处理器原型系统性能评估方法不仅可以帮助处理器设计人员在处理器设计阶段尽早地定位性能设计缺陷,而且还可以在设计流片前验证处理器能否达到性能设计预期.然而,对处理器原型系统进行完整的性能测试需要运行较长的时间,这样巨大的时间开销导致设计人员无法及时进行性能设计分析,进而导致处理器原型系统的性能评估成为整个项目的瓶颈.提出了一种快速精确的通用处理器原型系统性能评估方法Proto-Perf.Proto-Perf性能评估方法使用动态程序分析方法和基本块聚合技术抽取测试程序的特征程序片段进行测试,显著地缩短了性能测试时间.实验结果表明,相比于完整运行SPEC CPU2006 REF数据规模测试程序获得的性能数据,使用Proto-Perf测试得到的性能数据的绝对误差平均达到1.53％,其中最高达到7.86％.并且,对于实验中的每个程序,使用Proto-Perf方法进行测试的时间都明显缩短. 相似文献

17.

基于图形处理器的Cuboid算法

周国亮冯海军何国明陈红李翠平王珊《计算机研究与发展》2009,46(Z2)

近年来,基于图形处理器的通用计算获得了广泛关注,并在多个领域取得了进展.内存OLAP减少了磁盘I/O,但基于单核或多核CPU的计算能力及cache miss成为新的性能瓶颈,从而无法保证好的效率.而图形处理器由于其众多核和高带宽能够很好地适应OLAP计算特性.通过图形处理器来加速任一cuboid的计算,从而提高整个内存OLAP系统的性能.提出了基于图形处理器的分块并行算法,并对算法进行了优化及讨论了数据稀疏和数据分布倾斜等不同条件下的算法.算法通过扩展可以突破内存限制,组成磁盘、内存、显存三级流水线,适应海量数据计算;同时算法也可以作为计算整个cube的基础.通过实验比较,基于图形处理器的算法明显优于四核CPU算法. 相似文献

18.

基于图形处理器(GPU)的通用计算 总被引：102，自引：20，他引：102

吴恩华柳有权《计算机辅助设计与图形学学报》2004,16(5):601-612

伴随着PC级微机的崛起和普及,多年来计算机图形的大部分应用发生了从工作站向微机的大转移,这种转移甚至发生在像虚拟现实、计算机仿真这样的实时(中、小规模)应用中．这一切的发生从很大程度上源自于图形处理硬件的发展和革新．近年来,随着图形处理器(GPU)性能的大幅度提高以及可编程特性的发展,人们首先开始将图形流水线的某些处理阶段以及某些图形算法从CPU向GPU转移．除了计算机图形学本身的应用,涉及到其他领域的计算,以至于通用计算近2～3年来成为GPU的应用之一．并成为研究热点．文中从若干图形硬件发展的历史开始,介绍和分析最新GPU在通用计算方面的应用及其技术原理和发展状况,并结合作者自身的实践讨论和探索其发展前景。相似文献

19.

基于图形处理器的层次聚类算法效率研究

下载免费PDF全文

李琳李肯立《计算机工程与应用》2008,44(31):53-56

鉴于Larsen等人利用图形处理器（GPU）的多纹理技术做矩阵运算操作,以实现GPU在矩阵相乘方面的通用计算,提出一种利用GPU和CPU的协同处理模式,应用在基于层次聚类的动态近邻选择模型的聚类算法（DNNS）中,将算法中比较耗时的邻接度矩阵计算步骤交由GPU完成,而算法其余步骤由CPU执行,从而使算法的聚类效率得到显著提高。在配有Pentium IV 3.4 G CPU和NVIDIA GeForce 7800GT显卡的硬件环境下经过实验测试,证明这种协同处理模式下的运算速度比完全采用CPU计算速度要快25%左右。这种改进的层次聚类算法适合在数据流环境下对大量数据进行实时高效聚类操作。相似文献

20.

众核处理器的流水线紧耦合指令循环缓存设计

张昆过锋郑方谢向辉《计算机研究与发展》2017,54(4):813-820

能效比是未来高性能计算机需要解决的重要问题.众核处理器作为高性能计算机的重要实现手段,其微结构的优化设计对能效比提升尤为关键.提出了1种面向众核处理器的流水线紧耦合的指令循环缓存设计,以较小的L0指令缓存提供更加高能效的指令取指.作为体系结构研究同硬件可实现性紧密结合的1次尝试,设计始终考虑了硬件实现代价这一关键约束.为了控制L0指令缓存对流水线性能的影响,指令缓存采用了循环出口预取技术,以此保证指令缓存提供的低功耗的指令取指能够最终转化为流水线能效比的提升.在gem5模拟器上实现了对指令循环缓存的模拟.对SPEC2006的测试结果表明,在不影响流水线性能的前提下,设计的典型配置可以减少27%的指令取指功耗以及31.5%的流水线前段部件动态功耗. 相似文献