期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈捷捷王彦浩刘丹《机械》2013,(12):73-76

统一计算设备架构（CUDA）的提出和图形处理器（GPU）的并行处理能力和数据传输能力,使得基于CUDA架构的GPU高性能计算迅速成为一个研究热点。针对含有大规模分子动力学模拟效率低下问题,提出了一种CUDA架构下分子动力学模拟的新方法,给出了分子动力学模拟的CUDA算法流程,并利用CUDAC实现了并行算法。实验结果表明,与CPU处理速度相比,GPU可以提高速度200倍左右。相似文献

2.

基于边光滑三角形壳元和统一计算架构的板料成形仿真并行计算方法 总被引：2，自引：1，他引：1

蔡勇王琥李光耀崔向阳郑刚《机械工程学报》2012,48(6):32-38

针对板料成形过程仿真中计算效率低以及四边形单元几何逼近性差的问题,提出一种基于边光滑三角形壳元(Edge-based smoothed triangular shell element,EST)和图形处理器(Graphics processing unit,GPU)的板料成形并行计算方法。根据EST壳元及板料成形过程显式求解的特点,该方法采用将最小计算单位与线程一一对应的方式进行数组的求解,同时,采用并行缩减的方法进行单值的求解,实现了整个计算过程的细粒度并行。考虑到GPU并行计算系统的特点,采用由CPU进行主控,由GPU进行数值求解的程序架构,并以统一计算架构(Compute unified device architecture,CUDA)作为GPU编程环境,编制相应的程序。通过算例表明,与传统CPU串行计算方法相比,在计算精度一致的情况下,当计算模型单元数超过20 000个时,基于GPU的并行计算方法可以获得35倍以上的计算加速比,显著减少板料成形仿真的计算时间。相似文献

3.

运动模糊视频图像在图形处理器平台上的实时恢复 总被引：1，自引：0，他引：1

王晶李仕《光学精密工程》2010,18(10):2262-2268

提出了一种图形处理器优化编程方法,用于实现运动模糊视频图像的实时恢复处理。根据计算统一设备架构(CUDA)的硬件框架特征对GPU的线程块及线程数量进行优化配置,并引入了一种自动内存接合访问的方法,使得GPU的硬件资源得到充分利用。根据图像频谱的对称性去除冗余信息,减少了图像算法在频谱滤波时的数据量,使得GPU对内存的访问次数下降,从而提升了算法效率。实验表明,本文提出的GPU方案的计算性能比传统的CPU平台方案提升了一个数量级,半频谱滤波设计使总时间开销减少20%以上,实验结果证明了本文方案的可行性及有效性。相似文献

4.

基于CUDA的图像预处理并行化研究

占正锋李戈张学贺尹旭悦《机械与电子》2014,(7)

为加快图像预处理算法的执行速度,提出了基于计算统一设备架构(CUDA)的预处理算法来实现高速并行处理。分析了图像灰度化、高斯滤波以及直方图均衡化等预处理方法的原理,并对它们进行并行化分析,从而将CUDA并行计算技术引入到图像预处理算法。实验结果表明,此算法充分利用GPU的并行处理能力,与CPU串行处理方法相比,速度提高明显,有效提高数据处理能力。相似文献

5.

基于深度神经网络的轴承状态监测研究

《制造技术与机床》2017,(8)

为提高轴承状态监测的准确性和实时性,研究了基于卷积神经网络和GPU运算的轴承状态识别模型。利用振动信号监测轴承性能状态,应用连续小波变换算法对振动信号进行时频变换得到小波系数云图,通过基于卷积神经网络的深度学习方法进行数据驱动的特征学习,卷积和子采样计算提取具有旋转和尺寸不变性的特征向量,最后全连接层对特征向量进行状态识别。采用基于CUDA(Computer Unified Device Architecture)框架的CPU+GPU异构并行运算对计算模型加速,提高系统的实时性。为验证提出算法的有效性,采集轴承全寿命周期振动信号,运用提出的CPU+GPU计算方法和CPU计算方法分别对轴承运行状态进行识别实验。实验结果表明,所提出的方法,计算速度是CPU计算速度的5倍以上。相似文献

6.

计算机图形处理器加速的光学航空影像正射校正

全吉成王平王宏伟《光学精密工程》2016,24(11):2863-2871

提出了计算机图形处理器(GPU)加速的光学航空影像正射校正并行算法,以满足获取光学航空影像对实时性的要求并提高对海量影像数据在CPU上串行正射校正的效率。介绍了光学影像正射校正算法原理以及正射校正算法的并行化处理。为减少GPU执行的计算负载,引入"有效像素区域"概念,设计了改进的GPU并行校正算法。通过配置选择以及存储器访问优化进一步提高了算法的执行效率。最后,分析了GPU并行算法的精度,并验证了噪声干扰对算法的影响。实验结果表明,优化的改进GPU并行算法显著提高了正射校正的速度,影像大小为5 000×5 000时,加速比最高可达CPU串行算法的223倍以上。虽然GPU单精度计算和噪声干扰会使影像校正精度有所下降,但尚在误差允许范围之内。该算法能够快速实现光学航空影像的正射校正,校正后的影像满足实际应用需要。相似文献

7.

一种基于图形处理器的频繁模式挖掘算法 总被引：1，自引：1，他引：0

白洪涛欧阳丹彤何丽莉《仪器仪表学报》2009,30(10)

频繁模式挖掘是数据挖掘的核心问题.传统上,频繁模式并行挖掘主要是在集群上进行的,较少涉及共享内存多处理系统上的并行挖掘.基于广度优先搜索和直接计数策略研究了一种并行挖掘方法,并在图形处理器(graphics processing unit, GPU)最新统一计算设备架构CUDA(compute unified device architecture)下进行了实现.GPU-based FPMA用CPU控制搜索进程;在GPU的多处理器上,采用数据划分的计算策略,以适合GPU的顺序数据流方式计数,并根据候选项的长度动态剪枝事务数据集.实验结果表明,GPU-based FPMA比CPU版本平均加速了10倍以上. 相似文献

8.

二维结构拓扑优化的GPU并行计算方法研究

刘家彤王春洁吴健付志方《机械设计与制造》2020,(1):123-126,131

针对结构拓扑优化中存在的计算量大,计算效率低的问题,以二维结构拓扑优化问题为研究对象,提出了一种GPU并行计算方法。通过对已有串行算法进行研究,结合GPU并行计算的基本特点,采用节点刚度方法计算结构刚度矩阵,相对于MATLAB向量化计算,该算法加速效果显著。以固体各向同性材料惩罚法进行结构拓扑优化为例,在CUDA平台下实现了对结构化网格二维拓扑优化问题的GPU并行计算,得到了清晰的拓扑构型,将该方法与现有计算方法进行对比,GPU并行计算速度有较大提升。相似文献

9.

基于GPU的并行非结构网格生成技术研究 总被引：1，自引：0，他引：1

齐龙肖素梅刘云楚廖玲玲蔡云龙《机械设计与制造》2013,(2):184-186

为了解决非结构网格生成在时间和内存上的问题,研究了非结构网格的并行生成方法,提出了一种基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行性和并行Delaunay网格生成技术的优点,在CUDA编程框架下,将非结构网格生成的技术应用到GPU并行环境中。通过分析此方法的加速比和效率,对其性能进行了评估。实验结果表明,所提出的方法具备有高效性,与传统方法相比,在保证网格质量的同时,大幅度减少了其时间消耗。相似文献

10.

基于CUDA的体绘制GPU加速算法

吴磊王彬《生命科学仪器》2009,7(12):26-29

本文主要是针对传统意义上的体绘制的经典算法——投射算法,在已有的GPU加速的基础上,提出了利用CUDA实现对算法的优化和加速。具体来讲,首先需要将体数据以三维纹理的形式储存在GPU的显存中,之后利用CUDA的并行处理能力对显存中的数据进行相应的处理,主要包括：生成存储顶点灰度值和颜色的纹理数组,计算顶点梯度,实现坐标系的转换,确定有效光线,利用Phong光照模型来求得光线上各等距采样点的反射分量,最后利用累加函数求得屏幕上每一点的像素值。实验结果表明：我们利用CUDA对光线投射算法的实现比传统的GPU加速算法大大提高了速度和成像质量。相似文献

11.

GPU-based parallel computation for structural dynamic response analysis with CUDA

Dong-Keun Kang Chang-Wan Kim Hyun-Ik Yang 《Journal of Mechanical Science and Technology》2014,28(10):4155-4162

Frequency response analysis is an important computational tool to simulate and understand the dynamic behavior of structures. However, for more target frequency and/or larger scale structures, the runtime is greatly increased. Furthermore, increasingly complex degree of freedom problems intended to improve the accuracy of the analysis results is creating longer. In this paper, we present efficient analysis using runtime reduction in frequency response analysis with NVIDIA GPU using the compute unified device architecture (CUDA) programming environment. The proposed method is based on the sparse conjugate gradient method and a Jacobi preconditioner. Numerical examples which implemented by three different FE model are used to verify the validity. The results show that GPU parallel implementation achieves significant speed up compared to a single CPU processor. Through these results, in the frequency response analysis, we show the possibility for efficient analysis with reduction of the solving time by using GPU parallel implementation. 相似文献

12.

Zernike多项式波面拟合的回归分析方法 总被引：1，自引：2，他引：1

亓波陈洪斌刘顺发《光学精密工程》2007,15(3):396-401

介绍了一种干涉波面的Zernike多项式拟合方法,该方法从构造的正规方程入手并对其进行逐步回归分析,从众多的Zernike多项式模式中选取影响显著的模式。采用仿真波前对本文提出的波面拟合方法进行了验证,结果表明该方法可以得到干涉波面的最优模式组合,有效提高波面拟合的精度,拟合的PV和RMS相对误差仅为1.11%和0.07%。相似文献

13.

基于CUDA的体绘制GPU加速算法

吴磊王彬《生命科学仪器》2009,(9)

本文主要是针对传统意义上的体绘制的经典算法——光线投射算法,在已有的GPU加速的基础上,提出了利用CUDA实现对算法的优化和加速。具体来讲,首先需要将体数据以三维纹理的形式储存在GPU的显存中,之后利用CUDA的并行处理能力对显存中的数据进行相应的处理,主要包括:生成存储顶点灰度值和颜色的纹理数组,计算顶点梯度,实现坐标系的转换,确定有效光线,利用Phong光照模型来求得光线上各等距采样点的反射分量,最后利用累加函数求得屏幕上每一点的像素值。实验结果表明:我们利用CUDA对光线投射算法的实现比传统的GPU加速算法大大提高了速度和成像质量。相似文献

14.

基于GPU平台的大规模汽车结构重分析

下载免费PDF全文

贺冠强王琥黄观新李光耀《中国机械工程》2014,25(15):2117

针对大规模结构重分析计算中,随着待分析结构规模的扩大,重分析计算效率大幅度下降的问题,采用CUDA并行编程模型并结合组合近似法,建立了基于GPU平台的重分析并行系统。分别对刚度矩阵组装、预处理共轭梯度法等重分析关键计算流程进行了GPU并行实现。通过对车架和车门的刚度分析对该系统的性能进行了测试。测试结果表明,所提出的重分析方法能够在确保重分析计算精度的同时,大幅度提升计算效率。相似文献

15.

人眼波前像差客观测量的研究

杨雪谢海明张培茗曹亮陈家璧《光学仪器》2008,30(3):13-17

分析波动光学中人眼像差的产生机理和波前像差的表示方式。运用Zernike多项式表示人眼波前像差函数,研究Zernike多项式与人眼波像差的对应关系以及一些高级像差对人眼成像质量的影响。通过对自适应光学中Zernike多项式重建波前理论的研究,重点分析了应用Hartmann-Shack波前传感器测量人眼客观像差并用变形反射镜矫正人眼像差的解决方案。对提高正常眼睛的视力和人眼屈光矫正手术具有重要的实验和临床价值。相似文献

16.

剪切干涉图评价方法研究——两维剪切图的波面重构

刘书钢《光学仪器》1987,(3)

本文将介绍一种两维剪切图波面重构的方法。这种方法是直接用Zernike多项式对两张正交剪切图进行拟合,求出波面两斜率面的Zernike多项式系数,利用斜率面的系数来求出发面Zernike系数。相似文献

17.

Lubricant-Supplying Properties and Durability of Oil-Impregnated Polymers

Toshikazu Yabe Toshimi Takajo Soichiro Kato Fumio Ueki 《摩擦学汇刊》2013,56(3):453-458

Numerical optimization of tribological elements usually demands extended computations. The particle swarm optimization (PSO) method is known for its simple implementation and high efficiency in solving multifactor optimization problems. In this study, several parallel computing schemes using PSO for air foil bearing design are compared. The parallel programming models applied are multicore computing by OpenMP and many-core graphics processing unit (GPU) computing using Compute Unified Device Architecture (CUDA) and OpenACC. The best case was obtained when the OpenMP coding was applied at the algorithm level of optimization. The performance of CUDA was found to be compatible with OpenMP when parallel computing was used to solve the bearing model. Due to excess data communications computing using OpenACC was significantly slower than the other approaches. The parallel computing scheme recommended in this study is independent of PSO, which is applicable to tribological studies requiring global optimization analysis. 相似文献