首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 71 毫秒
1.
为解决当前群体行为模型因规模扩大而导致计算量剧增的问题,采用并行离散事件方法构建了大规模群体行为模型,利用YH-SUPE仿真引擎实现了群体行为模型的并行计算。重点介绍了模型中仿真对象和仿真对象信息交互的设计方法,并对该模型在不同数量的节点和仿真实体的环境下进行了测试。实验结果表明,将并行计算引入群体行为建模之中,可以显著提高仿真个体的数量,更加有效地支持了群体模型的实时运行。  相似文献   

2.
陈风  田雨波  杨敏 《计算机科学》2014,41(9):263-268
应用图形处理器(GPU)来加速粒子群优化(PSO)算法并行计算时,为突出其加速性能,经常有文献以恶化CPU端PSO算法性能为代价。为了科学比较GPU-PSO算法和CPU-PSO算法的性能,提出用"有效加速比"作为算法的性能指标。文中给出的评价方法不需要CPU和GPU端粒子数相同,将GPU并行算法与最优CPU串行算法的性能作比较,以加速收敛到目标精度为准则,在统一计算设备架构(CUDA)下对多个基准测试函数进行了数值仿真实验。结果表明,在GPU上大幅增加粒子数能够加速PSO算法收敛到目标精度,与CPU-PSO相比,获得了10倍以上的"有效加速比"。  相似文献   

3.
不变矩自提出以来被广泛应用于目标识别系统中进行特征描述,这需要能够实时计算不变矩值.虽然已经提出了许多不变矩的快速算法,但仍无法在单台PC机上实现不变矩的实时计算.分析了基于差分矩因子的不变矩快速算法的并行性,提出了一种基于统一计算架构(CUDA)的快速不变矩并行实现方法,并在NVIDIA Tesla C1060 GPU上实现.对所提出算法的计算性能与普通串行算法进行了对比分析.实验结果表明,所提出的并行计算方法极大地提高了不变矩的计算速度,可有效地用来进行实时特征提取.  相似文献   

4.
基于CUDA的并行粒子群优化算法的设计与实现   总被引:1,自引:0,他引:1  
针对处理大量数据和求解大规模复杂问题时粒子群优化(PSO)算法计算时间过长的问题, 进行了在显卡(GPU)上实现细粒度并行粒子群算法的研究。通过对传统PSO算法的分析, 结合目前被广泛使用的基于GPU的并行计算技术, 设计实现了一种并行PSO方法。本方法的执行基于统一计算架构(CUDA), 使用大量的GPU线程并行处理各个粒子的搜索过程来加速整个粒子群的收敛速度。程序充分使用CUDA自带的各种数学计算库, 从而保证了程序的稳定性和易写性。通过对多个基准优化测试函数的求解证明, 相对于基于CPU的串行计算方法, 在求解收敛性一致的前提下, 基于CUDA架构的并行PSO求解方法可以取得高达90倍的计算加速比。  相似文献   

5.
本文针对大规模人群仿真对仿真真实性和实时性的仿真要求,提出了一种基于Agent的并行人群仿真方法,通过CPUGPU混合并行的方式提高了仿真系统的性能和可扩展性。通过层次化的人群建模,使得个体更适合并行环境下的数据交互,仿真中通过感知区域视角约束对人群的运动进行控制,实现了人群平滑运动。实验部分对室外环境的人群漫游行为进行了仿真,验证了系统具有较高的性能和可扩展性。  相似文献   

6.
针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法.首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案.实验...  相似文献   

7.
8.
杨升  管群 《计算机工程与设计》2011,32(12):4231-4236
针对泥石流仿真过程中海量数据计算问题,采用CUDA技术即结合CPU与GPU的优点研究了一种协同计算方法以提高数据计算效率和仿真性能。同时,搭建了基于GPU的泥石流仿真计算平台,对优化的CUDA并行计算方法进行验证。实验结果表明,该方法对海量数据的计算具有快速准确、低成本、低功耗的特点,能为灾害预测提供及时准确的决策支持,满足了高密集型计算的需求。  相似文献   

9.
刘青昆  马名威  阎慰椿 《计算机应用》2011,31(12):3327-3330
矩阵乘法在科学计算领域中起着重要的作用,不同结构模型能够改善并行矩阵乘的性能。现有的MPI+CUDA同步模型中,主机端需要进入等待状态,直到设备端完成任务后才能继续工作,这显然浪费时间。针对上述问题,提出一种基于MPI+CUDA异步模型的并行矩阵乘法。该模型避免了主机端进入等待状态,并采用CUDA流技术解决数据量超过GPU内存问题。通过分析异步模型的加速比和效率,实验结果表明,此方法显著提高了并行效率和大型矩阵乘法的运算速度,充分发挥了节点间分布式存储和节点内共享内存的优势,是一种有效可行的并行策略。  相似文献   

10.
CUDA架构下大规模稠密线性方程组的并行求解   总被引:1,自引:0,他引:1       下载免费PDF全文
在Gauss-Jordan消去法的基础上,给出了一种适应于CUDA架构的改进Gauss-Jordan消去并行算法。通过分析该方法的处理过程以及CUDA架构的相应限制,在CUDA的grid-block-thread三层组织结构的基础上,从算法构造的角度提出了grid-strip-group-block-thread五层结构,给出了基础行以及全局基础行等概念,并构建了适应于CUDA架构的Gauss-Jordan消去法的并行版本,在最高维数为4 000维的大规模稠密线性方程组的算例求解上与串行Gauss-Jordan消去法进行了比较,实验结果表明,该算法能够充分利用GPU的硬件特性,有效地降低了大规模稠密线性方程组的求解时间。  相似文献   

11.
基于CUDA的点云去噪算法   总被引:1,自引:0,他引:1       下载免费PDF全文
徐波  唐杰  武港山 《计算机工程》2011,37(2):224-226
提出一种基于统一计算设备架构(CUDA)的双边滤波点云去噪算法,将点云去噪划分为多个并行度较高的步骤,利用GPU的并行计算能力,设计每个步骤的CUDA核函数。采用高斯加权的法矢计算方法,在双边去噪算法中加入面积权重缓解过光顺。实验结果表明,该算法能有效提高法矢计算的准确度,与CPU算法相比,计算速度提高了多个数量级。  相似文献   

12.
通过对人脸识别系统的2个关键部分的优化,实现一种快速高效的人脸识别系统。在面部检测阶段改进图像积分的并行算法;在面部识别阶段尝试算法的并行化,并且把测试阶段的一部分进行了并行化。与传统的CPU识别程序相比,CUDA平台改进程序可在面部检测阶段实现22.42倍的加速比,在面部识别阶段实现1668.56倍的加速比。实验数据表明,本文提出的人脸识别系统具有很高的实时性能。  相似文献   

13.
GIST特征提取的异构并发流计算实现   总被引:1,自引:0,他引:1  
针对图像GIST全局特征提取算法的计算任务,实现了CPU+GPU异构协同计算与优化:使用CPU完成图像量化、线性延拓等小计算量、不规则的数据运算,使用GPU完成滤波、Gabor特征提取、降维等计算密集、高度并行的数据运算。面向图像序列的计算扩展,在CPU端引入线程池技术,通过每个线程都绑定一个CUDA流处理一幅图像的方法,实现了多幅图像并发流处理和流内数据传输延时的隐藏;利用线程池技术提供线程预创建、资源预分配及根据资源消耗情况的线程数量动态增减等方法,提高了CPU对GPU计算资源的调度使用效率。实验结果表明,在保证同等精度的前提下,基于异构计算平台的图像GIST特征提取方法相比传统CPU平台达到8.35~9.31倍的加速比,在使用线程池之后算法处理图像序列数据时速度进一步提升10.0%~37.2%。  相似文献   

14.
为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型(GMM)和尺度不变特征变换(SIFT)特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵(GLCM)和形态学方法去除背景中移动的小物体和较密集的噪声等非人群前景,针对GMM算法提出了一种效率较高的并行模型;接着,检测运动人群的SIFT特征点作为人群统计的基础,基于二值图像的特征提取大大减少了执行时间;最后,提出基于人群特征数和人群数量进行统计分析的新方法,选择不同等级的人群数量的数据集分别进行训练,统计得出平均单个特征点数,并对不同密度的行人进行计数实验。算法采用基于GPU多流处理器进行加速,并针对所提算法在统一计算设备架构(CUDA)流上任务的有效调度的方法进行分析。实验结果显示,相比单流提速31.5%,相比CPU提速71.8%。  相似文献   

15.
针对大规模高分辨率数字地形数据提取栅格河网效率低下的问题,提出了基于统一设备计算架构(CUDA)利用淹没模型提取栅格河网的并行算法。使用图形处理器(GPU)将汇流累积量计算分解为独立的多任务并行处理,通过数据异步传输减少数据交换时间,进而加速河网提取的运算。实验结果表明,该算法运行效率明显优于串行河网提取算法,在NVIDIA Geforce GTX660上对数据量为600 MB(网格大小为9784×8507)数字高程模型(DEM)数据提取河网加速比达到62。  相似文献   

16.
CUDA架构下H.264快速去块滤波算法   总被引:1,自引:0,他引:1  
刘虎  孙召敏  陈启美 《计算机应用》2010,30(12):3252-3254
针对H.264/AVC视频编码标准中去块滤波器运算复杂度高、耗时巨大这一难题,提出了一种基于NVIDIA计算统一设备架构(CUDA)平台的H.264并行快速去块滤波算法,介绍了CUDA平台硬件结构特点与软件开发流程,根据图形处理器(GPU)的并发结构特点,对BS判定与滤波计算进行了并行优化,降低了算法复杂度,利用共享内存提高了数据访问速率,实现了去块滤波器的并行处理。实验结果表明,在图像质量基本不变的情况下,GPU算法能够明显提高运算速度,平均加速比在20倍左右,取得了良好的效果。  相似文献   

17.
粒子系统的基本理论符合自然世界的客观规律,适用于烟花等复杂现象的仿真。针对粒子系统仿真存在的计算和内存资源消耗巨大等问题,建立了基于统一计算设备架构(CUDA)框架的粒子系统基本模型,讨论了模型中粒子的存储与运动更新,研究了基于CUDA的并行KD-TRIE邻近粒子搜索算法。运用建立的CUDA粒子系统,研究了烟花仿真的具体实现。仿真结果表明,系统能够较逼真地仿真烟花的上升与绽放过程,帧率高达每秒312帧,仿真的真实感和实时性得到增强。  相似文献   

18.
针对传统点云简化算法效率低且处理点数少的缺陷,结合快速成型领域的切片原理顾及特征计算复杂度低的特点,设计并实现了适合千万级海量激光雷达(LiDAR)点云的并行切片简化算法。该算法根据切片原理对点云模型分层并按照角度排序,利用NVIDA的统一计算设备架构(CUDA)和可编程图形处理器(GPU)高度并行的性能优势,使用GPU多线程高效并行地执行单层切片点云简化,提高了算法效率。最后,应用3组不同数量级点云模型分别进行简化对比实验。实验结果表明:在保持模型特征与压缩比不变的情况下,所提算法效率高出传统基于CPU的串行切片算法1~2个量级。  相似文献   

19.
张硕  何发智  周毅  鄢小虎 《计算机应用》2016,36(12):3274-3279
基于统一计算设备架构(CUDA)对图形处理器(GPU)下的并行粒子群优化(PSO)算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束(Warp)才是流多处理器(SM)调度和执行的基本单位。为了充分利用Block中线程的并行性,提出基于自适应线程束的GPU并行PSO算法:将粒子的维度和线程相对应;利用GPU的Warp级并行,根据维度的不同自适应地将每个粒子与一个或多个Warp相对应;自适应地将一个或多个粒子与每个Block相对应。与已有的粗粒度并行方法(将每个粒子和线程相对应)以及细粒度并行方法(将每个粒子和Block相对应)进行了对比分析,实验结果表明,所提出的并行方法相对前两种并行方法,CPU加速比最多提高了40。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号