排序方式: 共有144条查询结果,搜索用时 15 毫秒
1.
The library PRAND for pseudorandom number generation for modern CPUs and GPUs is presented. It contains both single-threaded and multi-threaded realizations of a number of modern and most reliable generators recently proposed and studied in Barash (2011), Matsumoto and Tishimura (1998), L’Ecuyer (1999,1999), Barash and Shchur (2006) and the efficient SIMD realizations proposed in Barash and Shchur (2011). One of the useful features for using PRAND in parallel simulations is the ability to initialize up to 1019 independent streams. Using massive parallelism of modern GPUs and SIMD parallelism of modern CPUs substantially improves performance of the generators. 相似文献
2.
3.
4.
针对纹理映射体绘制物理内存空间的限制,本文提出一种可在通用图形硬件上完成大规模数据场实时体绘制的有效方法.该方法基于满二叉树纹理分块策略,利用GPU着色器可编程性,将纹理数据制作为一个一维传递函数查找表和一个规模等同于体数据场的动态纹理工作集,有效提高了大规模数据场体绘制的实时性.动态纹理工作集使用抽象分块与继承关系管... 相似文献
5.
伴随着GPGPU计算技术的不断发展,HPC高性能计算系统体系结构正在悄然发生着一场变革,这场变革为高性能计算发展提供了一个新的方向、CUDA是NIVIDIA公司提供的利用GPGPU进行并行运算应用开发的一套C语言编程平台,通过它可以利用特定显卡的高性能运算能力进行一些大规模高性能计算,有效提升计算机系统的使用效率,本文主要介绍GPU发展现状以及如何利用CUDA编程技术进行并行运算软件开发. 相似文献
6.
7.
使用GPU加速BLAST算法初探 总被引:1,自引:1,他引:0
应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包,其处理速度受到串行化执行和磁盘I/O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点,并选定关键热点模块,应用CUDA编程技术对其进行并行化改造。对比实验结果表明,对于平均序列长度较大的序列库,应用GPGPU并行化可明显缩短该模块的运行时间,获得超过35倍的加速比。这说明,我们可以利用GPGPU对BLAST进行并行化加速,以满足高性能生物序列查询的需求。 相似文献
8.
为了在虚拟环境中更加真实地模拟现实环境中物体的运动,需要在仿真系统中加入碰撞检测模块。现有的碰撞检测算法虽然能够快速检测两个物体是否相交,但在物体数量非常多的场景中,因需要对物体两两进行判断,所以仍无法达到较高的检测速度。利用GPU并行计算的特性,在GPU上增加一个预先剔除的过程,大幅度地快速排除不相交的物体,提高了检测的速度。 相似文献
9.
In large vocabulary continuous speech recognition (LVCSR) the acoustic model computations often account for the largest processing overhead. Our weighted finite state transducer (WFST) based decoding engine can utilize a commodity graphics processing unit (GPU) to perform the acoustic computations to move this burden off the main processor. In this paper we describe our new GPU scheme that can achieve a very substantial improvement in recognition speed whilst incurring no reduction in recognition accuracy. We evaluate the GPU technique on a large vocabulary spontaneous speech recognition task using a set of acoustic models with varying complexity and the results consistently show by using the GPU it is possible to reduce the recognition time with largest improvements occurring in systems with large numbers of Gaussians. For the systems which achieve the best accuracy we obtained between 2.5 and 3 times speed-ups. The faster decoding times translate to reductions in space, power and hardware costs by only requiring standard hardware that is already widely installed. 相似文献
10.
研究动态模式识别算法在GPU并行计算平台的实现。随着GPGPU(通用计算图形处理器)硬件的发展,基于GPU的大规模并行计算技术将有效地处理动态模式识别算法带来的海量计算问题。文中通过介绍动态模式识别算法,对算法中涉及的巨大计算量进行分析,并针对性地对其中密集计算部分进行并行化分解,移除原算法中在执行中存在的依赖关系,最终得到算法在特定的GPU平台———Jacket上的并行计算实现。实例验证表明,相比于原CPU串行程序,在GPU上运行的并行化程序能实现明显加速,因而具有很好的工程应用价值。 相似文献