期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曹洁李钊王进花余萍《计算机应用与软件》2020,37(4):240-246,251

在非线性系统中,粒子滤波需要大量粒子才能保证状态估计的准确度,这降低了算法的实时性,导致故障诊断的准确率和实时性不佳。针对该问题,提出基于GPU平台的粒子群优化粒子滤波(PSOPF)并行算法。通过分析PSOPF算法的并行性,设计并实现一种基于CUDA并行计算架构的PSOPF并行算法,利用大量的GPU线程对算法进行加速。为解决拒绝重采样对GPU全局内存的非合并访问带来的执行效率低问题,通过改进拒绝重采样并行算法,使线程束中的线程对同一内存区段中的粒子进行重采样,提高了其执行效率。通过对风力机组变桨距系统故障诊断验证了算法的有效性。实验结果表明,该方法可满足故障诊断准确率和实时性的要求。相似文献

2.

一种基于低对比度图像的车辆检测算法

下载免费PDF全文

文学志袁淮赵宏《计算机工程》2008,34(14):210-212

提出一种基于低对比度图像的车辆检测算法。对图像分割算法得到的感兴趣区域(ROI)进行预处理,利用Haar小波特征提取算法提取ROI的图像边缘及纹理特征,利用支持向量机对ROI进行车辆检测。实验结果表明,该方法对车辆检测率达到90.6%,误报率为3.8%。通过再学习还可以进一步提高算法的识别性能。相似文献

3.

基于OpenMP的Multi-Critical分子动力学并行算法优化

段振华白明泽豆育升《计算机应用研究》2012,29(7):2432-2434

为提高分子动力学模拟在多核共享内存式服务器上的运算速度,在现有的分子动力学并行算法基础上提出了Multi-Critical算法。该算法使用手动划分力矩阵的方法,使多个线程进入不同名的临界区,并使用分块叠加的方法优化了并行算法,提高了并行效率。实验结果表明,对比之前的Critical算法,该算法的加速比和并行效率均有较大幅度的提高。相似文献

4.

栅格数据多源成本距离分析并行算法及实现

汪维录马劲松于晓艳《微计算机信息》2011,(6)

针对栅格数据成本距离分析串行算法在大数据量、多源点的情况下计算效率低的问题,在串行算法的基础上,设计并实现了一种并行算法。实验结果表明,该算法有效地提高了计算效率。当栅格数据越大,点状源数目越多的时候,并行算法较串行算法的优越性越明显,并且随着线程个数的增加,并行算法的执行效率也在不断提高。相似文献

5.

基于CUDA的并行AES算法的实现和加速效率探索

费雄伟李肯立阳王东杜家宜《计算机科学》2015,42(1):59-62,74

网络应用服务(尤其是电子银行和电子商务)需要数据加密提供安全通信.很多应用服务器面临着执行大量计算稠密的加密挑战.CUDA(统一计算架构)是在GPU进行并行和通用计算的平台,能够利用现有显卡资源,以低成本的方式提升加密性能.在Nvidia GeForce G210显卡上实现CUDA的AES(高级加密标准)并行算法并且在AMD Athlon 7850上实现串行AES算法.实现的AES并行算法避免了同一线程块的线程同步和通信,提升了GPU的加速性能,加速比要比Manavski的AES-128并行算法提升2.66～3.34倍.在大数据量(至32MB)加密环境下探索AES并行算法的性能模型,并首次从加速效率角度分析加速性能.该并行AES算法在16核的GPU上能最高达到15.83倍的加速比和99.898％的加速效率. 相似文献

6.

基于TBB任务调度器的N皇后多核并行算法

郑晓薇张建强《计算机工程与设计》2010,31(15)

为了充分利用多核处理器资源,研究了Intel线程构建模块并行编程模式.基于任务调度器,建立了逻辑线程和物理线程最佳匹配和映射的面向任务编程模式.利用任务调度器,设计了N皇后问题在多核处理器的并行算法.该算法将任务自动地映射到多线程,减少消息传递和数据移动带来的额外开销,提高多核CPU的使用效率.并行算法的加速比接近核数,CPU使用效率超过90%,实验结果表明,该算法有效地提升了多核计算机资源的利用率. 相似文献

7.

基于OpenMP的压缩感知并行处理算法 总被引：1，自引：0，他引：1

巫小婷邓家先《计算机应用》2012,32(3):617-619

针对压缩感知重建算法复杂度高、运行时间长等缺点,提出一种应用于多核处理器的压缩感知并行算法。在认真分析压缩感知算法的基础上,利用OpenMP对压缩感知的编码测量和正交匹配追踪(OMP)算法进行并行处理,提升程序的性能。实验结果表明,随着线程数的增加,程序的执行效率显著提高,加速比呈线性增长; 并且重构过程越复杂,其性能优化越明显。相似文献

8.

基于CUDA的热传导GPU并行算法研究

孟小华黄丛珊朱丽莎《计算机工程》2014,(5):41-44,48

在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。相似文献

9.

基于GPU的并行优化技术* 总被引：4，自引：2，他引：2

左颢睿张启衡徐勇赵汝进《计算机应用研究》2009,26(11):4115-4118

针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。相似文献

10.

基于感兴趣区域的图像非真实感绘制算法

下载免费PDF全文

程琳琳陈昭炯《计算机工程》2010,36(16):195-197

针对图像非真实感绘制(NPR)算法和感兴趣区域(ROI)提取算法的不足,提出一种基于ROI的图像NPR算法。该算法利用Mean-Shift算法实现图像的NPR效果,结合图像的ROI解决传统算法时间效率不高的问题,应用色彩传递的方法对图像自动进行色彩添加和变更,以改善视觉效果。实验结果表明,该算法具有良好的艺术效果,能有效提高算法效率。相似文献

11.

软件定义车联网中缓存辅助的NOMA功率分配方案研究

顾金媛章国安张鸿来《计算机应用研究》2022,39(8)

由于对丰富多媒体服务的需求日益增长,车联网需要提供海量的设备连接以满足高频谱效率和低延迟的需求。软件定义网络（SDN）、缓存和非正交多址接入（NOMA）被认为是有效解决这些关键挑战的潜在技术。针对软件定义车联网,提出了一种缓存辅助的NOMA功率分配方案。首先,针对车联网中车辆总是处于高速运动状态的特点,提出了一种新的簇头选择算法,到达的道路交通将借助SDN进行预测,实现自适应车辆分簇。其次,引入了缓存辅助的NOMA方案,每个车辆在文件缓存阶段使用NOMA原理缓存和请求文件。再次,针对双Nakagami-m衰落条件下的两个簇头车辆通信场景,提出了一种最优功率分配策略,将优化问题公式化为找到每辆车的最佳功率曲线,从而最大化地在每辆车上成功解码目标文件的概率。最后,数值仿真和理论分析表明,所提缓存辅助NOMA功率分配方案,性能明显优于传统的NOMA和缓存辅助的OMA。相似文献

12.

多核处理器上的并行联机分析处理算法研究

周国亮王桂兰朱永利《计算机科学与探索》2013,(2):180-190

近年来,计算机硬件技术获得了很大发展,尤其是大内存和多核,但算法效率并没有随着硬件技术的发展而提高,根本原因是没有充分利用CPU缓存以及单线程程序设计的局限性。在联机分析处理领域,数据方体计算是一个重要而又耗时的操作,因此如何提高数据方体的计算效率是该领域的一个研究难点。探讨了基于多核CPU特征的并行立方体算法,提出了MT-Multi-Way(multi-threading multi-way)和MT-BUC(multi-threading bottom-up computation)算法。该算法通过有效的数据划分和多线程协作,避免了Cache竞争,并确保了负载均衡,获得了近似线性加速比。以上述算法为基础,提出了处理立方体算法的多核框架,包括数据划分策略及递归算法的多核处理,指导立方体算法的并行化。相似文献

13.

Dynamic Partitioning of Shared Cache Memory 总被引：6，自引：0，他引：6

G. E. Suh L. Rudolph S. Devadas 《The Journal of supercomputing》2004,28(1):7-26

This paper proposes dynamic cache partitioning amongst simultaneously executing processes/threads. We present a general partitioning scheme that can be applied to set-associative caches.Since memory reference characteristics of processes/threads can change over time, our method collects the cache miss characteristics of processes/threads at run-time. Also, the workload is determined at run-time by the operating system scheduler. Our scheme combines the information, and partitions the cache amongst the executing processes/threads. Partition sizes are varied dynamically to reduce the total number of misses.The partitioning scheme has been evaluated using a processor simulator modeling a two-processor CMP system. The results show that the scheme can improve the total IPC significantly over the standard least recently used (LRU) replacement policy. In a certain case, partitioning doubles the total IPC over standard LRU. Our results show that smart cache management and scheduling is essential to achieve high performance with shared cache memory. 相似文献

14.

A phase adaptive cache hierarchy for SMT processors

Sonia López Óscar Garnica David H. Albonesi Steven Dropsho Juan Lanchares José I. HidalgoAuthor vitae 《Microprocessors and Microsystems》2011,35(8):683-694

Resizable caches can trade-off capacity for access speed to dynamically match the needs of the workload. In single-threaded cores, resizable caches have demonstrated their ability to improve processor performance by adapting to the phases of the running application. In Simultaneous Multi-Threaded (SMT) cores, the caching needs can vary greatly across the number of threads and their characteristics, thus, offering even more opportunities to dynamically adjust cache resources to the workload.In this paper, we demonstrate that the preferred control methodology for data cache reconfiguring in a SMT core changes as the number of running threads increases. In workloads with one or two threads, the resizable cache control algorithm should optimize for cache miss behavior because misses typically form the critical path. In contrast, with several independent threads running, we show that optimizing for cache hit behavior has more impact, since large SMT workloads have other threads to run during a cache miss. Moreover, we demonstrate that these seemingly diametrically opposed policies are closely related mathematically; the former minimizes the arithmetic mean cache access time (which we will call AMAT), while the latter minimizes its harmonic mean. We introduce an algorithm (HAMAT) that smoothly and naturally adjusts between the two strategies with the degree of multi-threading.We extend a previously proposed Globally Asynchronous, Locally Synchronous (GALS) processor core with SMT support and dynamically resizable caches. We show that the HAMAT algorithm significantly outperforms the AMAT algorithm on four-thread workloads while matching its performance on one and two thread workloads. Moreover, HAMAT achieves overall performance improvements of 18.7%, 10.1%, and 14.2% on one, two, and four thread workloads, respectively, over the best fixed-configuration cache design. 相似文献

15.

椭圆曲线基点判断算法的多核并行化

许小龙罗克露《计算机应用研究》2010,27(9):3545-3548

椭圆曲线基点的判断是实现椭圆曲线密码系统（elliptic curve cryptosystems,ECC）的基础。提出了一种针对ECC的基点并行判断算法,此算法基于OpenMP共享存储模型,其并行效率在多核处理器平台上获得了显著的提高,最高达到了110%。实验表明,并行后的基点判断算法的运行速度相比并行前得到了明显提高;并行效率随着n（标量的二进制长度）的增大而逐渐趋于稳定;循环缓存容量对并行效率的提升没有影响;算法能够抵抗旁道攻击。因此,该算法可用于提高ECC基点的选取速度,进而提高整体加/解密速度。相似文献

16.

面向多线程多道程序的加权共享Cache划分 总被引：5，自引：1，他引：4

所光杨学军《计算机学报》2008,31(11)

并行应用在共享Cache结构的多核处理器执行时,会因为对共享Cache的冲突访问而产生性能下降和执行时间不确定的现象.共享Cache划分技术可以把共享Cache互斥地分配给多个进程使用,是解决该问题的有效方法.由于线程间的数据共享,线程数目不同的应用对共享Cache的利用率不同,但传统的以失效率最低为目标的共享Cache划分算法(例如UCP)没有区分应用线程数目的不同.文中设计了一种面向多线程多道程序的加权共享Cache划分框架(Weighted Cache Partitioning,WCP),包括面向应用的失效率监控器和加权Cache划分算法.失效率监控器以进程为单位动态监控在不同的Cache容量下应用的失效率;而加权Cache划分算法扩展了传统的失效率最优的Cache划分算法,根据应用线程数目的不同在进行Cache划分时给应用赋予不同的权值,以使具有更多线程的应用获得更多的共享Cache,从而提高系统的整体性能.实验结果表明:加权Cache划分算法虽然失效率有所增高,但却改进了IPC吞吐率、加权加速比和公平性.在由科学和工程计算应用组成的多道程序测试用例中,WCP-1的IPC吞吐率比以失效率最低为目标函数的共享Cache划分算法最高高出10.8%,平均高出5.5%. 相似文献

17.

Dynamic thread mapping of shared memory applications by exploiting cache coherence protocols

Eduardo H.M. Cruz Matthias Diener Marco A.Z. Alves Philippe O.A. Navaux 《Journal of Parallel and Distributed Computing》2014

In current computer architectures, the communication performance between threads varies depending on the memory hierarchy. This performance difference must be considered when mapping parallel applications to processor cores. In parallel applications based on the shared memory paradigm, the communication is difficult to detect because it is implicit. Furthermore, dynamic mapping introduces several challenges, since it needs to find a suitable mapping and migrate the threads with a low overhead during the execution of the application. We propose a mechanism to detect the communication pattern of shared memory applications by monitoring cache coherence protocols. We also propose heuristics that, combined with our communication detection mechanism, allow the mapping to be performed dynamically by the operating system. Experiments with the NAS Parallel Benchmarks showed a reduction of up to 13.9% of the execution time, 30.5% of the cache misses and 39.4% of the number of invalidation messages. 相似文献

18.

基于OpenCL的雷达外推算法改进与优化

王兴 ;苗春生 ;王秀君 ;樊仲欣《计算机与现代化》2014,(8):81-86

基于雷达资料的外推是临近预报中重要的方法之一,随着全国气象雷达网络建设规模的不断提高以及观测资料精细化程度的提升,基于区域乃至全国雷达拼图的外推预报,每次计算都需花费大量时间,甚至滞后于每6分钟一次的资料观测频次。为解决传统外推算法运算复杂度高,实时性差的问题,运用OpenCL构建基于GPU的异构计算模型对外推算法进行并行化改进。然后逐步分析影响算法性能的瓶颈,并通过改进和测试数据比对,阐述算法优化的过程。其中,内存与线程的映射优化、合理利用局部存储器作为高速缓存以及隐藏CPU执行时间等方法不仅对本算法的执行效率带来显著提升,也可为其他基于OpenCL异构计算的优化提供参考。以AMD Graphic Core Next和Northern Islands二代GPU架构作为测试平台,并以Intel CPU并行计算作为测试参考,测试结果表明,改进后的算法在硬件同等功耗的情况下,计算性能提升15~22倍。相似文献

19.

Parallel Processing of First Order Linear Recurrence on SMP Machines

Hong-soog Kim Young-ha Yoon Dong-soo Han 《The Journal of supercomputing》2004,27(3):295-310

In this paper, we propose a new algorithm that analyzes the data dependency pattern in the first-order linear recurrence (FOLR) and transforms it into algebraically equivalent expanded form so that it can be processed in parallel using the threads on symmetric multiprocessor (SMP) machines. The transformation aims to eliminate the data dependencies in the naive nested form of the FOLR. However, as this transformation may result in extra multiplication operations, our algorithm examines the immanent overhead of the expanded form of the FOLR and generates a new hybrid form of the FOLR. The hybrid form combines nested and appropriately expanded form in order to make it suitable for parallel processing. The parallel algorithm based on the hybrid form of the FOLR is analytically examined and tested through implementation on SMP machines. The implementation details, such as the workload balancing between processors and the optimization of cache performance, are also discussed. The experimental results show that the parallel algorithm based on the hybrid form of the FOLR considerably improves the performance on SMP machines that have three of more processors. 相似文献

20.

一种基于Inter-warp异构性的缓存管理与内存调度机制

方娟魏泽琳于婷雯《计算机工程与科学》2019,41(5):788-795

在GPU中,一个warp内的所有线程在锁步中执行相同的指令。某些线程的内存请求可以得到快速处理,而其余请求会经历较长时间。在最慢的请求完成之前,warp不能执行下一条指令,导致内存发散。对GPU中warp间的异构性进行了研究,实现并优化了一种基于inter warp异构性的缓存管理机制和内存调度策略,以减少内存发散和缓存排队延迟的负面影响。根据缓存命中率将warp分类,以驱动后面的3个组件：（1）基于warp类型的缓存旁路技术组件,使低缓存利用率的warp进入旁路,不访问L2缓存;（2）基于warp类型的缓存插入/提升策略组件,防止来自高缓存利用率warp的数据被过早清除;（3）基于warp类型的内存控制器组件,优先处理从高缓存利用率的warp接收到的请求,并优先处理来自相同warp的请求。基于warp间异构性的缓存管理和内存调度机制在8种不同的GPGPU应用中,与基准GPU相比,平均加速18.0％。相似文献