期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

岳承君尹凤杰井元伟《计算机工程》2009,35(11):205-206

针对网络信息不确定性和链路负载不均匀所造成的网络拥塞,提出基于信息熵的组播路由算法。该遗传算法从最小代价树开始,在多种群中不断选择信息熵较大的种群,以求得满足延时要求且路径负载较小的组播树。结果表明,该算法性能快速、有效地构造最小时延组播树,且保证网络负载均衡分布。相似文献

2.

运动估计搜索算法的CUDA优化与实现

下载免费PDF全文

陈佐陈汉季加良《计算机工程与应用》2010,46(32):171-176

针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA（全域消除算法）的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。相似文献

3.

Legendre序列快速生成的CUDA实现

赵家威房九龄苏明《计算机工程与应用》2014,(8):66-71,153

序列设计在信息安全,无线通信等诸多领域中有着重要应用。在流密码系统中,要求产生的随机序列具有理想的随机复杂度度量如线性复杂度,k阶相关复杂度等。其中Legendre序列具有这些理想的随机性质。实用中序列的生成速度也是很重要的考虑因素。探讨了大素数周期的Legendre序列生成的相关算法,并运用统一计算设备架构平台（CUDA）对其进行优化以加快序列的生成速度。实验结果表明,运用CUDA进行序列的并行生成,序列的生成速度有数量级的提高。相似文献

4.

CUDA平台下LISP2算法垃圾收集并行研究

下载免费PDF全文

张聪品吴长茂赵理莉《计算机工程与应用》2010,46(33):75-77

为了提高垃圾收集效率,降低垃圾收集耗费时间,提出一种基于LISP2算法的并行节点复制垃圾收集算法,给出了在CUDA环境下该算法的实现。实验结果显示,该算法在CUDA环境下能有效提高垃圾收集效率。相似文献

5.

基于CUDA的图像匹配算法

周冰园陈庆奎高丽萍秦川《计算机工程与应用》2015,51(12):165-170

为解决目前已有的图像匹配算法不适用于对实时性要求很强的应用,提出了PLS（Partial Least Squares）与余弦定理相结合的并行化图像匹配算法。该算法在CUDA架构下,对图像矩阵分块,分块后每个小块图像存入共享存储器处理并提取每个小块图像特征,通过合并后图像特征采用余弦定理计算图像的相似度,从而找出匹配图像。实验表明,CUDA架构下可以实现图像的并行匹配,与CPU上串行匹配相比,时效性提高了百倍以上。相似文献

6.

基于CUDA的并行加速渲染算法

下载免费PDF全文

刘镇郝冬宁梅向东《中国图象图形学报》2013,18(11):1457-1461

GPU可以快速有效的处理海量数据,因此在近些年成为图形图像数据处理领域的研究热点。针对现有GPU渲染中在处理含有大量相同或相似模型场景时存在资源利用率低下和带宽消耗过大的问题,在原有GPU渲染架构的基础上提出了一种基于CUDA的加速渲染方法。在该方法中,根据现有的GPU渲染模式构建对应的模型,通过模型找出其不足,从而引申出常量内存的概念;然后分析常量内存的特性以及对渲染产生的作用,从而引入基于常量内存控制的方法来实现渲染的加速,整个渲染过程可以通过渲染算法进行控制。实验结果表明,该方法对解决上述问题具有较好的效果,最终实现加速渲染。相似文献

7.

基于CUDA平台的遗传算法并行实现研究 总被引：2，自引：0，他引：2

下载免费PDF全文

谭彩凤马安国邢座程《计算机工程与科学》2009,31(Z1)

CUDA技术方便程序员在GPU上进行通用计算,但并没有提供随机数产生的应用接口。为此,本文提出并实现在CUDA开发平台上并行产生均匀随机数算法,测试证明算法可行。在此基础上优化基本遗传算法,并在GPU上并行实现其所有操作,提高其运行速度和准确度;分析了种群大小和遗传代数对此算法加速比及准确度的影响,并与MAT-LAB工具箱进行比较。实验表明,相比MATLAB遗传算法工具箱,基于CUDA平台实现的遗传算法性能更高,准确度更好。相似文献

8.

CUDA平台下的实时超声扫描转换

王伟民王合闯王华军《计算机应用》2011,31(10):2760-2763

为了克服传统医学超声扫描转换不能实时的缺陷,实时超声扫描转换算法利用计算统一设备架构(CUDA)技术,通过分配最优的线程结构、合理规划中央处理器(CPU)和图形处理器(GPU)之间的数据传输方式和计算任务的划分,提高了算法的吞吐量,满足了实时性。传统CPU算法和3种GPU算法的实验结果对比显示,GPU处理3121×936大小的图片,帧速率可达746fps,并行算法加速比可达300以上。相似文献

9.

基于CUDA架构的三维CPML-FDTD并行方法

下载免费PDF全文

胡媛李康孔凡敏杜刘革《计算机工程与应用》2011,47(25):220-223

为解决时域有限差分（FDTD）算法应用于电大尺寸目标仿真的巨大耗时问题,应用FDTD算法的并行特性和通用图形处理器（GPGPU）技术,实现了一种基于计算统一设备架构（CUDA）的三维FDTD并行计算方法,采用了时域卷积完全匹配层（CPML）吸收边界条件模拟开域空间,对不同网格数目标仿真计算。进一步结合FDTD算法和CUDA的特点进行了优化,当计算空间元胞数在十万数量级及以上时,优化前后GPU运算相对于同时期的CPU分别可获得10和25倍以上的加速,结果表明该方法较适合用于实际电磁问题的仿真。相似文献

10.

基于CUDA的双三次B样条缩放方法 总被引：4，自引：2，他引：2

下载免费PDF全文

桂叶晨冯前进刘磊陈武凡《计算机工程与应用》2009,45(1):183-185

Nvidia在GeForce 8系列显卡上推出的CUDA（统一计算设备架构）技术使GPU通用计算（GPGPU）从图形硬件流水线和高级绘制语言中解放出来,开发人员无须掌握图形学编程方法即可在单任务多数据模式（SIMD）下完成高性能并行计算。研究了CUDA的设计思想和编程方式,改进了基于双三次B样条曲面的图像缩放算法,使用多个线程将计算中耗时的B样条重采样部分改造成SIMD模式,并分别采用CUDA中全局存储器和共享存储器策略在CUDA上完成图像缩放的全过程。实验结果表明,基于CUDA的B样条曲面并行插值方法成功实现了硬件加速,相对于CPU上运行的B样条缩放算法,其执行效率明显提高,易于扩展,对于大规模数据处理呈现出良好的实时处理能力。相似文献

11.

RSA算法的CUDA高效实现技术

下载免费PDF全文

孙迎红童元满王志英《计算机工程与应用》2011,47(2):84-87

CUDA（Compute Unified Device Architecture）作为一种支持GPU通用计算的新型计算架构,在大规模数据并行计算方面得到了广泛的应用。RSA算法是一种计算密集型的公钥密码算法,给出了基于CUDA的RSA算法并行化高效实现技术,其关键为引入大量独立并发的Montgomery模乘线程,并给出了具体的线程组织、数据存储结构以及基于共享内存的性能优化实现技术。根据RSA算法CUDA实现方法,在某款GPU上测试了RSA算法的运算性能和吞吐率。实验结果表明,与RSA算法的通用CPU实现方式相比,CUDA实现能够实现超过40倍的性能加速。相似文献

12.

基于CUDA的BP算法并行化与实例验证

孙香玉冯百明杨鹏斐《计算机工程与应用》2013,(23):31-34,51

CUDA是应用较广的GPU通用计算模型,BP算法是目前应用最广泛的神经网络模型之一。提出了用CUDA模型并行化BP算法的方法。用该方法训练BP神经网络,训练开始前将数据传到GPU,训练开始后计算隐含层和输出层的输入输出和误差,更新权重和偏倚的过程都在GPU上实现。将该方法用于手写数字图片训练练实验,与在四核CPU上的训练相比,加速比为6．12～8．17。分别用在CPU和GPU上训练得到的结果识别相同的测试集图片,GPU上的训练结果对图片的识别率比CPU上的高0．05％～0．22％。相似文献

13.

CUDA架构下大规模稠密线性方程组的并行求解 总被引：1，自引：0，他引：1

下载免费PDF全文

杨梅李志民曹大勇《计算机工程与应用》2011,47(32):27-30

在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4 000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。相似文献

14.

统一设备计算架构下的栅格河网提取并行算法

王玉着刘修国张唯《计算机应用》2015,35(4):960-963

针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。相似文献

15.

基于CUDA的多尺度Retinex图像增强算法实现

王正宁刘昌忠陈雷霆吴宏刚吴敏《计算机应用》2010,30(9):2441-2443

多尺度Retinex图像增强是一种基于色彩恒定理论的图像增强算法,算法增强效果好,但随着图像分辨率的提高计算时间显著增加。分析并利用计算统一设备架构(CUDA)图形处理器(GPU)的并行处理特性,提出了一种基于CUDA的多尺度Retinex图像增强并行算法,将多尺度高斯滤波、对数空间差分和动态范围压缩等计算非常耗时的模块采用并行方式放在GPU中进行计算。实验结果表明所提算法能显著提高计算速度,随着图像分辨率的增加,最大加速比超过100倍。相似文献

16.

CUDA架构下的快速图像去噪 总被引：3，自引：2，他引：3

下载免费PDF全文

李军李艳辉陈双平《计算机工程与应用》2009,45(11):183-185

图像处理通常需要较大的计算量,其中图像去噪是经常使用的一种预处理算法,研究其快速算法具有重要意义。图形处理器具有强大的并行计算能力,但大部分时间处于闲置状态。统一计算设备架构提供了一种简单易用的开发环境,可利用图形处理器进行通用计算。提出了基于统一计算设备架构的快速图像去噪算法,可以利用GPU的计算能力,加快去噪过程,显著地减少计算时间。相似文献

17.

基于CUDA的AES并行算法优化

费雄伟 ;李肯立 ;阳王东《计算机工程》2014,(9):6-12

为提升高级加密标准(AES)的加密性能,利用显卡的通用计算能力,在统一计算设备架构(CUDA)平台上实现AES的128位、192位和256位3个版本的GPU并行算法,并提出优化的AES并行算法。在考虑块内线程数量、共享存储器容量和总块数的基础上,根据分块最优值的经验数据指导AES算法在GPU上的最优分块。实验结果表明,与未优化的AES并行算法相比,该算法的3个版本在Nvidia Geforce G210显卡上的加密速度分别提高5.28%,14.55%和12.53%,而在Nvidia Geforce GTX460显卡上的加密速度分别提高12.48%,15.40%和15.84%,且能更好地对SSL数据进行加密。相似文献