共查询到17条相似文献,搜索用时 127 毫秒
1.
2.
基于边光滑三角形壳元和统一计算架构的板料成形仿真并行计算方法 总被引:2,自引:1,他引:1
针对板料成形过程仿真中计算效率低以及四边形单元几何逼近性差的问题,提出一种基于边光滑三角形壳元(Edge-based smoothed triangular shell element,EST)和图形处理器(Graphics processing unit,GPU)的板料成形并行计算方法。根据EST壳元及板料成形过程显式求解的特点,该方法采用将最小计算单位与线程一一对应的方式进行数组的求解,同时,采用并行缩减的方法进行单值的求解,实现了整个计算过程的细粒度并行。考虑到GPU并行计算系统的特点,采用由CPU进行主控,由GPU进行数值求解的程序架构,并以统一计算架构(Compute unified device architecture,CUDA)作为GPU编程环境,编制相应的程序。通过算例表明,与传统CPU串行计算方法相比,在计算精度一致的情况下,当计算模型单元数超过20 000个时,基于GPU的并行计算方法可以获得35倍以上的计算加速比,显著减少板料成形仿真的计算时间。 相似文献
3.
运动模糊视频图像在图形处理器平台上的实时恢复 总被引:1,自引:0,他引:1
提出了一种图形处理器优化编程方法,用于实现运动模糊视频图像的实时恢复处理。根据计算统一设备架构(CUDA)的硬件框架特征对GPU的线程块及线程数量进行优化配置,并引入了一种自动内存接合访问的方法,使得GPU的硬件资源得到充分利用。根据图像频谱的对称性去除冗余信息,减少了图像算法在频谱滤波时的数据量,使得GPU对内存的访问次数下降,从而提升了算法效率。实验表明,本文提出的GPU方案的计算性能比传统的CPU平台方案提升了一个数量级,半频谱滤波设计使总时间开销减少20%以上,实验结果证明了本文方案的可行性及有效性。 相似文献
4.
5.
《制造技术与机床》2017,(8)
为提高轴承状态监测的准确性和实时性,研究了基于卷积神经网络和GPU运算的轴承状态识别模型。利用振动信号监测轴承性能状态,应用连续小波变换算法对振动信号进行时频变换得到小波系数云图,通过基于卷积神经网络的深度学习方法进行数据驱动的特征学习,卷积和子采样计算提取具有旋转和尺寸不变性的特征向量,最后全连接层对特征向量进行状态识别。采用基于CUDA(Computer Unified Device Architecture)框架的CPU+GPU异构并行运算对计算模型加速,提高系统的实时性。为验证提出算法的有效性,采集轴承全寿命周期振动信号,运用提出的CPU+GPU计算方法和CPU计算方法分别对轴承运行状态进行识别实验。实验结果表明,所提出的方法,计算速度是CPU计算速度的5倍以上。 相似文献
6.
提出了计算机图形处理器(GPU)加速的光学航空影像正射校正并行算法,以满足获取光学航空影像对实时性的要求并提高对海量影像数据在CPU上串行正射校正的效率。介绍了光学影像正射校正算法原理以及正射校正算法的并行化处理。为减少GPU执行的计算负载,引入"有效像素区域"概念,设计了改进的GPU并行校正算法。通过配置选择以及存储器访问优化进一步提高了算法的执行效率。最后,分析了GPU并行算法的精度,并验证了噪声干扰对算法的影响。实验结果表明,优化的改进GPU并行算法显著提高了正射校正的速度,影像大小为5 000×5 000时,加速比最高可达CPU串行算法的223倍以上。虽然GPU单精度计算和噪声干扰会使影像校正精度有所下降,但尚在误差允许范围之内。该算法能够快速实现光学航空影像的正射校正,校正后的影像满足实际应用需要。 相似文献
7.
一种基于图形处理器的频繁模式挖掘算法 总被引:1,自引:1,他引:0
频繁模式挖掘是数据挖掘的核心问题.传统上,频繁模式并行挖掘主要是在集群上进行的,较少涉及共享内存多处理系统上的并行挖掘.基于广度优先搜索和直接计数策略研究了一种并行挖掘方法,并在图形处理器(graphics processing unit, GPU)最新统一计算设备架构CUDA(compute unified device architecture)下进行了实现.GPU-based FPMA用CPU控制搜索进程;在GPU的多处理器上,采用数据划分的计算策略,以适合GPU的顺序数据流方式计数,并根据候选项的长度动态剪枝事务数据集.实验结果表明,GPU-based FPMA比CPU版本平均加速了10倍以上. 相似文献
8.
9.
10.
本文主要是针对传统意义上的体绘制的经典算法——投射算法,在已有的GPU加速的基础上,提出了利用CUDA实现对算法的优化和加速。具体来讲,首先需要将体数据以三维纹理的形式储存在GPU的显存中,之后利用CUDA的并行处理能力对显存中的数据进行相应的处理,主要包括:生成存储顶点灰度值和颜色的纹理数组,计算顶点梯度,实现坐标系的转换,确定有效光线,利用Phong光照模型来求得光线上各等距采样点的反射分量,最后利用累加函数求得屏幕上每一点的像素值。实验结果表明:我们利用CUDA对光线投射算法的实现比传统的GPU加速算法大大提高了速度和成像质量。 相似文献
11.
Dong-Keun Kang Chang-Wan Kim Hyun-Ik Yang 《Journal of Mechanical Science and Technology》2014,28(10):4155-4162
Frequency response analysis is an important computational tool to simulate and understand the dynamic behavior of structures. However, for more target frequency and/or larger scale structures, the runtime is greatly increased. Furthermore, increasingly complex degree of freedom problems intended to improve the accuracy of the analysis results is creating longer. In this paper, we present efficient analysis using runtime reduction in frequency response analysis with NVIDIA GPU using the compute unified device architecture (CUDA) programming environment. The proposed method is based on the sparse conjugate gradient method and a Jacobi preconditioner. Numerical examples which implemented by three different FE model are used to verify the validity. The results show that GPU parallel implementation achieves significant speed up compared to a single CPU processor. Through these results, in the frequency response analysis, we show the possibility for efficient analysis with reduction of the solving time by using GPU parallel implementation. 相似文献
12.
13.
本文主要是针对传统意义上的体绘制的经典算法——光线投射算法,在已有的GPU加速的基础上,提出了利用CUDA实现对算法的优化和加速。具体来讲,首先需要将体数据以三维纹理的形式储存在GPU的显存中,之后利用CUDA的并行处理能力对显存中的数据进行相应的处理,主要包括:生成存储顶点灰度值和颜色的纹理数组,计算顶点梯度,实现坐标系的转换,确定有效光线,利用Phong光照模型来求得光线上各等距采样点的反射分量,最后利用累加函数求得屏幕上每一点的像素值。实验结果表明:我们利用CUDA对光线投射算法的实现比传统的GPU加速算法大大提高了速度和成像质量。 相似文献
14.
15.
16.
本文将介绍一种两维剪切图波面重构的方法。这种方法是直接用Zernike多项式对两张正交剪切图进行拟合,求出波面两斜率面的Zernike多项式系数,利用斜率面的系数来求出发面Zernike系数。 相似文献
17.
Numerical optimization of tribological elements usually demands extended computations. The particle swarm optimization (PSO) method is known for its simple implementation and high efficiency in solving multifactor optimization problems. In this study, several parallel computing schemes using PSO for air foil bearing design are compared. The parallel programming models applied are multicore computing by OpenMP and many-core graphics processing unit (GPU) computing using Compute Unified Device Architecture (CUDA) and OpenACC. The best case was obtained when the OpenMP coding was applied at the algorithm level of optimization. The performance of CUDA was found to be compatible with OpenMP when parallel computing was used to solve the bearing model. Due to excess data communications computing using OpenACC was significantly slower than the other approaches. The parallel computing scheme recommended in this study is independent of PSO, which is applicable to tribological studies requiring global optimization analysis. 相似文献