期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

狄鹏胡长军李建江《计算机科学》2012,39(3):304-307

直方图生成算法(Histogram Generation)是一种顺序的非规则数据依赖的循环运算,已在许多领域被广泛应用。但是,由于非规则的内存访问,使得多线程对共享内存访问会产生很多存储体冲突(Bank Conflict),从而阻碍并行效率。如何在并行处理器平台,特别是当前最先进的图像处理单元(Graphic Processing Unit,GPU)实现高效的直方图生成算法是很有研究价值的。为了减少直方图生成过程中的存储体冲突,通过内存填充技术,将多线程的共享内存访问均匀地分散到各个存储体,可以大幅减少直方图生成算法在GPU上的内存访问延时。同时,通过提出有效可靠的近似最优配置搜索模型,可以指导用户配置GPU执行参数,以获得更高的性能。经实验验证,在实际应用中,改良后的算法比原有算法性能提高了42%～88%。相似文献

2.

NTRU加解密算法的GPU实现研究

下载免费PDF全文

朱瑶严承华李强《计算机工程与应用》2011,47(34):81-85

GPU拥有高度并行性和可编码的特点,在大规模数据并行计算方面得到广泛应用。NTRU算法是一种安全性高,易于并行化的公钥密码算法。研究了NTRU算法基于CUDA的并行化实现技术,将计算中最耗时的卷积运算分解到多个线程并行计算,引入大量的独立并发的加解密线程块来完成整个加解密过程,并给出了具体的数据编码及存储结构、线程组织以及基于合并访问和共享内存的性能优化技术。实验结果表明,基于CUDA的NTRU加解密算法实现了硬件加速,相对于NTRU算法在CPU的实现,CUDA实现能够达到12.38 MB/s的吞吐量,可获得最大为95倍的加速比。相似文献

3.

基于PVM的Jacobi迭代算法的设计与实现

马元元邹燕飞《福建电脑》2006,(9):35-36

本文设计并实现了基于PVM的Jacobi迭代算法,在Linux操作系统上构建PVM系统进行验证,获得了较理想的加速比。相似文献

4.

基于GPU的图像处理算法研究

陈国强《软件》2014,(2):135-136

随着计算机处理技术不断发展,PC级微机得到了普及,这一趋势使计算机图形应用发生了重大变革,改变了以往工作站处理方式的格局,并且较大地影响了虚拟现实领域、仿真技术等图像处理领域。而这些变革之所以能够付诸现实,很大程度上依赖于图形处理硬件技术的发展,尤其是图形处理器(GPU)性能的大幅提升极大地满足了日益复杂的图像处理要求。本文在实践的基础上探讨了CUDA框架和C++语言构建的图像处理算法,证实GPU图像处理所具有的明显优势。相似文献

5.

基于GPU的CUDA应用开发环境构架

邓力陈晓翔林嘉宇《微处理机》2013,34(1):1-3

随着GPU(graphics processing unit,图像处理单元)的快速发展,其强大的计算能力使得GPU由最初仅用于加速图形计算,越来越多地应用到非图形领域的计算。在CPU-GPU体系中,CPU负责进行复杂的逻辑运算和事务管理等不适合并行处理的数据计算,GPU负责进行计算密集度高、逻辑分支简单的适合并行处理的大规模数据计算。CPU-GPU体系的不断完善,使得利用GPU来加速大规模科学计算成为了一种必然趋势。着眼GPU的应用开发,介绍在windows环境下CUDA+VS2008开发平台的构架,并对该构架下GPU与CPU的科学计算性能进行比对。相似文献

6.

LU分解和Laplace算法在GPU上的实现

陈颖林锦贤吕暾《计算机应用》2011,31(3):851-855

随着图形处理器(GPU)性能的大幅度提升以及可编程性的发展,已经有许多算法成功地移植到GPU上.LU分解和Laplace算法是科学计算的核心,但计算量往往很大,由此提出了一种在GPU上加速计算的方法.使用Nvidia公司的统一计算设备架构(CUDA)编程模型实现这两个算法,通过对CPU与GPU进行任务划分,同时利用GP... 相似文献

7.

Jacobi和素性测定算法在PC上的实现 总被引：3，自引：0，他引：3

张振祥《计算机工程与科学》1996,18(2):23-28

我们在ＰＣ机上实现了Ａｄｌｅｍａｎ－Ｐｏｍｅｒａｎｃｅ－Ｒｕｍｅｌｙ的Ｊａｃｏｂｉ和素性测定算法的Ｃｏｈｅｎ－Ｌｅｎｓｔｒａ版本，我们的Ｐａｓｃａｌ程序在４８６微机上对１０４位素数的严格素性证明在５分钟内完成。相似文献

8.

基于MPI的Jacobi迭代算法的并行化

卢可佩祝永志《数字社区&智能家居》2014,(11):7485-7487

Jacobi迭代算法是解线性方程组的最常用的方法,具有广泛的应用。Jacobi迭代属于计算密集型[1],将并行计算技术应用到Jacobi迭代中,具有重要的意义。通过使用消息传递编程模型mpi提供的向量数据类型和虚拟进程拓扑来实现Jacobi迭代的并行化。相似文献

9.

基于MPI的Jacobi迭代算法的并行化

卢可佩祝永志《数字社区&智能家居》2014,(31):7485-7487

Jacobi迭代算法是解线性方程组的最常用的方法,具有广泛的应用。Jacobi迭代属于计算密集型[1],将并行计算技术应用到Jacobi迭代中,具有重要的意义。通过使用消息传递编程模型mpi提供的向量数据类型和虚拟进程拓扑来实现Jacobi迭代的并行化。相似文献

10.

GPU实现的抑制椒盐噪声的排序滤波算法

吴粉侠李红《微机发展》2014,(1):89-92

文中提出了一种简单有效的排序滤波算法,并在GPU上实现了该算法。算法首先检测图像中的信号,如果检测的像素是信号则保留不变,否则取其邻域并对邻域内的非噪声像素排序并取中值,若中值为信号,则用它代替噪声像素灰度值;否则扩大邻域窗口,重复算法。随着图像规模的增大,在CPU上执行的时间显著增加。文中在CUDA平台上对其进行了实现。实验结果表明该算法不仅能有效地移除椒盐噪声,而且执行效率高,图像的规模越大,加速比越高,最多可提高3个数量级。相似文献

11.

Jacobi和Laplace算法在GPU平台上的设计与实现 总被引：1，自引：1，他引：0

唐滔林一松《计算机工程与科学》2009,31(Z1)

随着半导体工艺的发展,GPU的浮点计算能力迅速提高。如何把GPU处理技术应用到非图形计算领域成为体系结构以及高性能计算领域的热点研究问题。Jacobi和Laplace是科学计算领域常用的计算核心。本文基于AMD的流处理GPU平台设计并实现了这两个算法,相对于CPU平台取得了很好的加速效果。相似文献

12.

基于GPU的现代并行优化算法

张庆科杨波王琳朱福祥《计算机科学》2012,39(4):304-311

针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。相似文献

13.

雅可比迭代法在图形处理器上实现的研究

下载免费PDF全文

张健涂永明涂晓明《计算机工程与应用》2009,45(34):53-55

雅可比迭代法是求解大型线性方程组的基本方法。利用GPU（Graphics Processing Unit,图形处理器）的并行处理能力,将雅可比迭代求解线性方程组过程中运算量较大的部分移植到GPU上执行,以提高运算速度。并分析了影响运算速度的两个因素：CPU-GPU数据交换和共享变量的访问;实验结果表明采用单个thread访问共享变量判断迭代是否收敛时,线性方程组的阶数为500,速度可以提高45倍以上。相似文献

14.

基于批量LU分解的矩阵求逆在GPU上的有效实现

刘世芳赵永华黄荣锋于天禹张馨尹《软件学报》2023,34(11):4952-4972

给出批量矩阵的LU分解和批量求逆算法在GPU上实现及优化方法.针对批量LU分解问题,分析Left-looking和Right-looking等常用LU分解块算法在GPU上实现时对全局内存的数据读写次数,针对GPU架构特点,选择具有较少访存数据量的Left-looking块算法.在LU分解的选主元过程,采用适合GPU架构的并行二叉树搜索算法.此外,为了降低选主元引起的行交换过程对算法性能的影响,提出Warp分组行交换和行交换延迟2个优化技术.针对LU分解后的批量求逆问题,分析矩阵求逆过程中修正方法,为了减少修正过程对全局内存的访问,在批量求逆的GPU实现中采用延迟修正的矩阵求逆块算法.同时,为了加快数据读写速度,采用更多利用寄存器和共享内存的优化方法和减少访存数据量的列交换优化方法.另外,为了避免线程的闲置和共享内存等GPU资源浪费,提出运行时动态GPU资源分配方法,相较于一次性分配的静资源分配方法性能得到明显提升.最终,在TITAN V GPU上,对10000个规模在33–190之间的随机矩阵进行测试,测试的数据类型为单精度复数、双精度复数、单精度实数和双精度实数.所实现的批量LU分解算法的浮点计算性能分别可达到约2 TFLOPS、1.2 TFLOPS、1 TFLOPS、0.67 TFLOPS,与CUBLAS中的实现相比加速比最高分别达到了约9×、8×、12×、13×,与MAGMA中的实现相比加速比分别达到了约1.2×–2.5×、1.2×–3.2×、1.1×–3×、1.1×–2.7×.批量求逆算法的浮点计算性能分别可达到约4 TFLOPS、2 TFLOPS、2.2 TFLOPS、1.2 TFLOPS,与CUBLAS中的实现相比加速比最高分别达到了约5×、4×、7×、7×,与MAGMA中的实现相比加速比分别达到了约2×–3×、2×–3×、2.8×–3.4×、1.6×–2×. 相似文献

15.

基于GPU的图像快速旋转算法的研究及实现 总被引：2，自引：0，他引：2

下载免费PDF全文

刘耀林邱飞岳王丽萍《计算机工程与科学》2008,30(6):48-50

本文提出一种基于GPU（图形处理器）的图像旋转并实时绘制方法。首先,文章概述了一种由GPU完成旋转变换的算法,指出其存在的问题与局限性;然后,引出基于GPU的图像旋转算法,并利用DirectX9．0作为软件开发包,在VC＋＋6．0平台实现了图像的旋转以及实时显示;最后,对两种方法的实验结果进行了比较与分析。算法充分吸收GPU在速度以及节约CPU资源等方面的优势,保证了图像旋转的运算速度与旋转质量。相似文献

16.

Efficient and Quality Contouring Algorithms on the GPU

L. Schmitz L. F. Scheidegger D. K. Osmari C. A. Dietrich J. L. D. Comba 《Computer Graphics Forum》2010,29(8):2569-2578

Interactive isosurface extraction has recently become possible through successful efforts to map algorithms such as Marching Cubes (MC) and Marching Tetrahedra (MT) to modern Graphics Processing Unit (GPU) architectures. Other isosurfacing algorithms, however, are not so easily portable to GPUs, either because they involve more complex operations or because they are not based on discrete case tables, as is the case with most marching techniques. In this paper, we revisit the Dual Contouring (MC) and Macet isosurface extraction algorithms and propose, respectively: (i) a novel, efficient and parallelizable version of Dual Contouring and (ii) a set of GPU modules which extend the original Marching Cubes algorithm. Similar to marching methods, our novel technique is based on a case table, which allows for a very efficient GPU implementation. In addition, we enumerate and evaluate several alternatives to implement efficient contouring algorithms on the GPU, and present trade‐offs among all approaches. Finally, we validate the efficiency and quality of the tessellations produced in all these alternatives. 相似文献

17.

基于GPU的RDF类型同构并行算法

冯佳颖张小旺冯志勇《计算机研究与发展》2018,55(3):651-661

相似文献

18.

基于GPU的并行化Apriori算法的设计与实现

唐家维王晓峰《计算机科学》2014,41(10):238-243

大数据和高度并行的计算架构的时代已经来临,如何让传统的串行数据挖掘方法在当下获得更高的效率是一个值得探讨的问题。根据现代GPU大规模并行运算架构的特点(单结构多数据),对传统的串行Apriori算法进行并行化处理。使用最新的CUDA技术完成对传统串行Apriori算法中的支持度统计、候选集生成这两个计算的并行化实现,讨论了多种实现方法的差异,并提出改进方案。实验表明:改进后的并行算法使支持度统计在10000条事务的条件下效率提高16%,候选集生成在10000条事务的条件下效率提高25%。相似文献

19.

GPU平台上ADL算法的实现

陈加忠夏涛欧阳昆黎单孙自龙《计算机技术与发展》2011,21(1)

自适应方向提升小波变换(ADL)利用图像纹理特征进行变换编码,从而获得更高的编码质量,但同时也增加了计算复杂度.为了提高图像编码速率,在统一计算设备架构(CUDA)的图形处理器(GPU)上,提出一种并行实现ADL中的插值和方向变换计算的新方案,对插值部分同时采用粗粒度和细粒度的并行,即把图像数据分成若干个块进行粗粒度的并行,而对块中的每个像素点采用细粒度的并行.对变换部分中的9个变换方向采用粗粒度的并行.实验表明,在GPU上并行实现ADL变换是CPU实现的4倍左右,CPU-GPU整体架构下的ADL变换编码的速度是CPU平台下的3倍左右. 相似文献