期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

使用GPU加速BLAST算法初探 总被引：1，自引：1，他引：0

万宁谢海波张清赵开勇褚晓文于军《计算机工程与科学》2009,31(11)

应用GPU通用高性能编程技术实现了一种加速BLAST算法的新方法。BLAST是目前最常用的用于生物序列查询比对的算法和软件包,其处理速度受到串行化执行和磁盘I/O等因素的影响。本文通过实验分析了BLAST软件包中的典型程序BLASTN的运行热点,并选定关键热点模块,应用CUDA编程技术对其进行并行化改造。对比实验结果表明,对于平均序列长度较大的序列库,应用GPGPU并行化可明显缩短该模块的运行时间,获得超过35倍的加速比。这说明,我们可以利用GPGPU对BLAST进行并行化加速,以满足高性能生物序列查询的需求。相似文献

2.

基于GPU加速的图像双向相似性计算

傅贤超《现代计算机》2013,(11)

针对双向相似性计算在CPU下串行计算效率低下,无法满足实际需求的问题,利用该计算中数据独立性的特点,应用CUDA编程模型实现基于GPU加速的图像双向相似性计算。与CPU相比,在392x300的分辨率实验下,该算法在GPU上可获得超过1200倍的加速比。相似文献

3.

基于GPU的社会化网络关系计算研究

王亚芹孔雪元王滢《计算机光盘软件与应用》2011,(15)

随着网络不断地社会化、普及化,网络社区的规模也越来越大,这给社会化网络关系的计算带来了巨大的计算量。这些计算包括个人关系及计算与生成、全局关系计算与生成以及关系的挖掘等。虽然这些工作的计算量很大,但却适合并行处理。基于此,本文通过详细分析GPU的高性能运算及其在CUDA编程模型上的具体实现,讨论利用基于CUDA硬件架构的GPU来进行社区用户关系的并行计算。相似文献

4.

基于GPU加速的并行WMD算法

胡蓉阳王东王昊天罗辉章李肯立《计算机科学》2021,48(12):24-28

Word Mover's Distance(WMD)是一种度量文本相似度的方法,它将两个文本之间的差异定义为文本的词嵌入向量之间的最小距离.WMD利用词汇表,将文本表示为归一化的词袋向量.文本的单词在语料中所占的比例很小,因此用词袋模型生成的文本向量很稀疏.多个文本可以组成一个高维的稀疏矩阵,这样的稀疏矩阵会生成大量不必要的运算.通过一次性对多个目标文本计算单个源文本的WMD,可以使计算过程高度并行化.针对文本向量的稀疏性,文中提出了一种基于GPU的并行Sinkhorn-WMD算法,采取压缩格式存储目标文本的方式来提高内存利用率,根据稀疏结构减少中间过程的计算.利用预训练词嵌入向量计算单词距离矩阵,对WMD算法进行改进,在两个公开的新闻数据集上进行优化算法的验证.实验结果表明,在NVIDIA TITAN RTX上并行算法与CPU串行相比最高可以达到67.43倍的加速. 相似文献

5.

基于CUDA的并行加速渲染算法

下载免费PDF全文

刘镇郝冬宁梅向东《中国图象图形学报》2013,18(11):1457-1461

GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。相似文献

6.

基于GPU的彩色显微光学图像快速三维可视化

《计算机应用与软件》2016,(12)

彩色显微光学图像三维可视化计算量较大,针对基于CPU单线程串行计算的可视化方法无法满足实时显示要求,提出一种基于图形处理器(GPU)的显微彩色图像快速三维可视化算法。该方法采用最大密度投影函数(MIP)实现可视化,通过插值计算通过物体光线上等间距点的RGB值,取其最大亮度点的RGB作为该光线对应像素的颜色值。以上过程通过构筑的内核函数在GPU上以多线程方法完成,最终使用Open GL直接绘制投影图像。利用激光共聚焦显微镜获得的小鼠肾细胞彩色图像和多层细胞样本进行算法验证。实验结果表明,与基于CPU的单线程串行计算方法相比,基于GPU的可视化方法在显示效果一致的前提下,计算速度提高了90倍。该方法极大提升了显微图像处理过程中的实时显示性能。相似文献

7.

基于GPU的并行报文分类方法

张唯唯张玉洁《计算机与现代化》2014,(11):9-14

报文分类是网络设备的基本处理模式,通常采用报文过滤系统对每个报文进行分类。传统报文分类难以适应当今越来越高的网络流量,分类处理速度低于报文到达网络接口的速度,无法实现实时分析。因此,本文提出使用GPU对大规模报文集进行并行分类的方法,利用GPU的线程级并行处理能力加速报文分类吞吐率,并对其性能及优化方法进行详细分析。实验结果表明,GPU加速的Linear Search和RFC报文分类算法与纯CPU系统执行相比可达到4.4~132.5倍的加速比。相似文献

8.

GPU上计算流体力学的加速 总被引：1，自引：0，他引：1

董廷星李新亮李森迟学斌《计算机系统应用》2011,20(1):104-109

本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上.模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流.相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比.为了最大程度提... 相似文献

9.

GPU加速逆时偏移技术的应用和分析

张向阳冯超敏文玲《计算机应用与软件》2012,29(8):223-225

在地震资料的处理应用中,逆时偏移等处理技术由于计算资源的需求量巨大,而不能在实际生产中被广泛采用。GPU及CUDA编程架构的引入大幅提高其运算性能,是解决类似技术应用的有效途径。同时,GPU独特的物理特性使得一些应用不仅不能提高性能,甚至使性能急剧下降。通过逆时偏移技术应用实例来说明GPU的加速效果,同时将其和常规流程进行对比和分析给出应用软件的GPU适用性评价方法。相似文献

10.

基于GPU的现代并行优化算法

张庆科杨波王琳朱福祥《计算机科学》2012,39(4):304-311

针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。相似文献

11.

基于GPU的非标记定量软件QuantWiz并行化实现

费辉张云泉王靖《计算机科学》2012,39(6):285-288

QuantWiz是一款基于质谱的非标记定量软件,可很好地应用于定量蛋白质组学。实验数据的日益增大,使定量的计算量巨大,耗费时间长。GPU以几百GFlops甚至上TFlops的运算能力,为定量蛋白质组学这样的计算密集型应用提供了良好的加速方案。对QuantWiz软件做了深入的研究与分析,找到了软件性能的热点模块所在,提出了该软件在GPU上的加速方案———GPU-QuantWiz,并进行了实现。性能测试显示,在Tesla C1060上,该方案的平均加速比达到9.66倍,得到了良好的加速效果。同时,该方案还可以扩展到两块及以上的GPU上,具有良好的可扩展性。相似文献

12.

基于改进同步迭代算法的矿井煤尘检测

童敏明魏明生郝继飞《自动化与仪表》2012,27(2):6-8,52

为了对矿井煤尘颗粒进行实时监测,提出了消光法和过程层析成像技术相结合的消光层析法,设计了基于阵列式传感器的测量电路,在数据重建中引入了同步迭代算法(SIRT)对实验数据进行重构,并针对该算法速度慢的缺点提出了通过增加权重系数来提高速度的改进方法,以实现工业的在线测量.最后,对设计装置进行了实验分析,实验结果表明该装置能较好地实现煤尘颗粒的在线测量. 相似文献

13.

GPU平台下针对SAR地面快视系统的RD算法优化与实现

杨仁忠张萄林波涛韦宏卫《遥感技术与应用》2012,27(2):237-242

针对SAR地面系统实时关键成像技术进行研究,采用GPU(Graphic Processing Unit)硬件平台CUDA(Computer Uniformed Device Architecture)编程模型,对传统合成孔径雷达的RDA(Range Doppler Algorithm)算法核心部分进行了针对性的设计与实现,并在GPU专用科学计算平台Tesla C1060上进行了实验。结果表明其处理速度是一台主流4核心8线程CPU的20倍以上,并且相对RadarSat\|1卫星可以达到10倍左右的实时率;基于GPU的处理方式较好地实现了SAR实时成像系统。相似文献

14.

基于云计算平台Hadoop的并行k-means聚类算法设计研究 总被引：2，自引：0，他引：2

赵卫中马慧芳傅燕翔史忠植《计算机科学》2011,38(10):166-168

随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。相似文献

15.

基于GPU的大规模拓扑优化问题并行计算方法 总被引：1，自引：0，他引：1

韩琪蔡勇《计算机仿真》2015,32(4):221-226,304

针对进行大规模拓扑优化问题计算量庞大且计算效率低的问题,设计并实现了一种基于图形处理器(GPU)的并行拓扑优化方法.采用双向渐进结构拓扑优化(BESO)为基础优化算法,采用一种基于节点计算的共轭梯度求解方法用于有限元方程组求解.通过对原串行算法的研究,并结合GPU的计算特点,实现了迭代过程全流程的并行计算.上述方法的程序设计和编写采用统一计算架构(CUDA),提出了基于单元和基于节点的两种并行策略.编写程序时充分使用CUDA自带的各种数学运算库,保证了程序的稳定性和易用性.数值算例证明,并行计算方法稳定并且高效,在优化结果一致的前提下,采用GTX580显卡可以取得巨大的计算加速比. 相似文献

16.

基于CUDA平台的FIR滤波算法的设计与优化

郭海凤李莉《计算机技术与发展》2014,(3):102-105,167

针对目前基于普通DSP的FIR算法速度低、扩展性差的缺点,提出并实现基于CUDA平台实现的FIR滤波算法。由于在CUDA中程序可以直接操作数据而无需借助于图形系统的API,使开发者能够在GPU 强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。该算法将CUDA用于FIR滤波器输入输出关系计算,采用矩阵乘法的并行运算技术,在GPU上建立并行滤波模型,并对算法进行了优化。实验结果表明,在Tesla C1060平台上,和传统的基于DSP的FIR滤波算法计算速度相比,基于CUDA平台计算FIR滤波算法时,其加速比可接近30,解决了传统基于DSP计算FIR滤波算法速度较慢、扩展性差的问题。相似文献

17.

基于GPU的压缩感知重构算法的设计与实现

张静熊承义高志荣《计算机科学》2016,43(8):318-322

针对大尺度压缩感知重构算法实时性应用的需要,探讨了基于图形处理器(GPU)的正交匹配追踪算法(OMP)的加速方法及实现。为降低中央处理器与GPU之间传输的高延迟,将整个OMP算法的迭代过程转移到GPU上并行执行。其中,在GPU端根据全局存储器的访问特点,改进CUDA程序使存储访问满足合并访问条件,降低访问延迟。同时,根据流多处理器(SM)的资源条件,增加SM中共享存储器的分配,通过改进线程访问算法来降低bank conflict,提高访存速度。在NVIDIA Tesla K20Xm GPU和Intel(R) E5-2650 CPU上进行了测试,结果表明,算法中耗时长的投影模块、更新权值模块分别可获得32和46倍的加速比,算法整体可获得34倍的加速比。相似文献

18.

Platform impact on performance of parallel genetic algorithms: Design and implementation considerations

Tabitha L. Reza John D. 《Engineering Applications of Artificial Intelligence》2006,19(8):843-856

Many problems in the operations research field cannot be solved to optimality within reasonable amounts of time with current computational resources. In order to find acceptable solutions to these computationally demanding problems, heuristic methods such as genetic algorithms are often developed. Parallel computing provides alternative design options for heuristic algorithms, as well as the opportunity to obtain performance benefits in both computational time and solution quality of these heuristics. Heuristic algorithms may be designed to benefit from parallelism by taking advantage of the parallel architecture. This study will investigate the performance of the same global parallel genetic algorithm on two popular parallel architectures to investigate the interaction of parallel platform choice and genetic algorithm design. The computational results of the study illustrate the impact of platform choice on parallel heuristic methods. This paper develops computational experiments to compare algorithm development on a shared memory architecture and a distributed memory architecture. The results suggest that the performance of a parallel heuristic can be increased by considering the desired outcome and tailoring the development of the parallel heuristic to a specific platform based on the hardware and software characteristics of that platform. 相似文献

19.

面向GPU计算平台的神经网络卷积性能优化

李茂文曲国远魏大洲贾海鹏《计算机研究与发展》2022,59(6):1181-1191

图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. 相似文献