期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赖积保孟圆余涛王玉璟林英豪吕天然《计算机科学》2013,40(8):24-27,33

针对传统三次卷积插值算法实现遥感图像放大在运算规模、计算速度等方面的不足,结合GPU的高性能计算优势,提出一种基于Dual-GPU(Graphic Processing Unit)的三次卷积插值并行算法(CCPA),即应用GPU的高性能计算技术将传统的三次卷积插值算法进行并行化处理,将图像的像素点个数平均分配给每个线程块,每个线程针对一个像素,线程在GPU中同时执行,以提高其插值效率。实验结果表明,该算法在保持放大后图像质量的同时,速度得到提升,随着图像分辨率的增大,该算法的优势更明显,在分辨率10240*10240的情况下,用GPU处理的速度比CPU提升了97.7%,用双GPU处理的速度是单GPU的2倍,并且在对放大遥感图像的质量和实时性均要求较高如地震、洪水等灾害的情况下,该算法具有实用价值。相似文献

2.

基于线性卷积的圆周卷积快速算法

沈君凤《信息与电脑》2011,(11):183+185

圆周卷积是数字信号处理中一个很重要的内容。本文针对线性卷积与圆周卷积运算进行讨论,分析了线性卷积与圆周卷积的相互关系。通过分析,发现利用线性卷积来计算有限长短序列的圆周卷积,可使运算极大的简化。相似文献

3.

GPGPU性能模型及应用实例分析 总被引：2，自引：1，他引：1

韩博周秉锋《计算机辅助设计与图形学学报》2009,21(9)

现代图形处理器(GPU)的高性能吸引了大量非图形应用,为了有效地进行性能预测和优化,提出一种GPU处理通用计算问题的性能模型.通过分析现代GPU并行架构和工作原理,将GPU的通用计算过程划分为数据获取、计算、输出和传输4个并列的阶段,结合程序特点和硬件规格对各阶段进行量化分析,完成性能预测.通过实验分析得出两大性能影响要素:计算强度和访问密度,并将其作为性能优化的基本准则.该模型被用于分析几种常见的图像和视频处理算法在GPU上的实现,包括高斯卷积、离散余弦变换和运动估计.实验结果表明,通过增大计算强度和访问密度,文中优化方案显著地降低了GPU上的执行时间,使得计算效率提升了4～10倍,充分说明了该模型在性能预测和优化方面的有效性. 相似文献

4.

基于GPU的卷积检测模型加速

《计算机应用与软件》2016,(5)

近年来,形变部件模型和卷积神经网络等卷积检测模型在计算机视觉领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和评估过程中卷积运算巨大的计算开销,也限制了其在诸多实际场景中进一步的应用。利用数学理论和并行技术对卷积检测模型进行算法和硬件的双重加速。在算法层面,通过将空间域中的卷积运算转换为频率域中的点乘运算来降低计算复杂度;而在硬件层面,利用GPU并行技术可以进一步减少计算时间。在PASCAL VOC数据集上的实验结果表明,相对于多核CPU,该算法能够实现在单个商用GPU上加速卷积过程2.13~4.31倍。相似文献

5.

基于FPGA的通用卷积神经网络识别系统研究

赵凡白雪杨涛赵不贿徐雷钧《自动化仪表》2022,(1):42-47+54

针对目前在中央处理器(CPU)中部署卷积神经网络速度慢、在图形处理器(GPU)中功耗高等问题,采用基于现场可编程门阵列(FPGA)平台开发的卷积神经网络识别系统,对卷积神经网络的各个环节进行算法加速。考虑到算法的计算量和逻辑资源的消耗主要集中在卷积层,提出了在特征图的通道方向进行双卷积并行模块设计。在卷积神经网络的池化层和激活函数Softmax中,设计了流式池化,并提出改进的分段查表计算Softmax函数的方法。另外,在归一化和预处理阶段也分别进行了优化。卷积神经网络识别系统选用XILINX公司的ZCU104开发平台。该平台内部包含片上系统与可编程逻辑控制器。通过自制水果数据集,分别在ZCU104、CPU和GPU上进行试验。试验结果显示,ZCU104分类的准确率达到了95.8%,识别速度约为计算机端上CPU实现同种网络模型的3倍,并且高于GPU。此外,该系统通用性高、资源占用率低,可应用在其他神经网络模型中。相似文献

6.

一种长序列线性相关及卷积的快速算法 总被引：1，自引：0，他引：1

曹宁虞湘滨刘健《数据采集与处理》2001,16(Z1):190-195

随着多媒体通信和数字信号处理技术的快速发展,各种信号处理的方法及相关理论不断完善,其中两种基本方法——卷积和相关得到了广泛的应用.鉴于多媒体信号的数据量很大,如果直接用以上两种方法处理,计算量将会很大.文章通过对快速傅立叶变换(FFT)的算法原理分析,根据线性相关和卷积的数学特征及物理含义,针对长序列信号,提出了一种基于FFT的长序列快速相关及卷积算法,用C++进行了算法编程,在计算机上得到较好的实验效果,提高了运行速度,并结合算术傅立叶变换进行了改进. 相似文献

7.

MCC-SIMD数据并行卷积计算方法的研究 总被引：1，自引：0，他引：1

张发存赵晓红王虑沈绪榜《计算机工程》2004,30(9):34-36

主要研究卷积计算的数据并行方法在MCC-SIMD计算机的设计和实现问题。在参考国内外现有资料的基础上，从图论的角度用卷积路径的方法对卷积计算的有关概念进行了严格的形式化定义；分析了4-连接卷积路径下数据并行卷积计算时处理元阵列的移动规律；在此基础上给出了数据并行卷积计算算法；最后对算法的计算复杂性和通信复杂性进行了简要分析。文中还对有关结论进行了证明。相似文献

8.

基于Tensorflow对卷积神经网络的优化研究

下载免费PDF全文

郭敏钢宫鹤《计算机工程与应用》2020,56(1):158-164

针对卷积神经网络在性耗比上的不足,提出了异构式CPU+GPU的协同计算模型,在模型计算过程中使CPU负责逻辑性强的事物处理和串行计算,使GPU执行高度线程化的并行处理任务。通过实验测试与单GPU训练、单CPU训练进行对比,结果表明异构式CPU+GPU计算模型在性耗比上更加优异。针对在卷积神经网络中Swish激活函数在反向传播求导误差梯度时涉及参数较多所导致的计算量较大,收敛速度慢,以及ReLU激活函数在[x]负区间内导数为零所导致的负梯度被置为零且神经元可能无法被激活的问题,提出了新的激活函数ReLU-Swish。通过测试训练对比并分析结果,将Swish激活函数小于零与ReLU激活函数大于零的部分组成分段函数,并且通过CIFAR-10和MNIST两个数据集进行测试对比实验。实验结果表明,ReLU-Swish激活函数在收敛速度以及模型测试训练的准确率上对比Swish激活函数及ReLU激活函数有较明显的提高。相似文献

9.

基于申威众核架构的分组卷积计算加速与优化

王鑫张铭《计算机应用研究》2023,40(6):1745-1749

针对应用普通卷积结构的卷积计算复杂度较高、计算量与参数量较大的问题,提出以国产SW26010P众核处理器为平台的并行分组卷积算法。核心思想是利用独特的数据布局,通过多核映射处理进行并行计算。实验测试结果表明,与单核串行算法相比,使用该并行分组卷积算法可以获得79.5的最高加速比及186.7MFLOPS的最大有效算力。通过SIMD指令对并行分组卷积算法进行数据并行优化后,与使用优化前的并行分组卷积算法相比,可以获得10.2的最高加速比。相似文献

10.

嵌入式设备高效卷积神经网络的电力设备检测

下载免费PDF全文

林唯贤《计算机系统应用》2019,28(5):238-243

随着大型图像集的出现以及计算机硬件尤其是GPU的快速发展，卷积神经网络（CNN）已经成为人工智能领域的一种成功算法，在各种机器学习任务中表现出色.但CNN的计算复杂度远高于传统算法，嵌入式设备上有限资源的限制成为制造高效嵌入式计算的挑战性问题.在本文中，我们提出了一种基于嵌入式设备的高效卷积神经网络用于电力设备检测，根据处理速度评估这种高效的神经网络.结果表明，该算法能够满足嵌入式设备实时视频处理的要求. 相似文献

11.

GPU的通用计算应用研究 总被引：9，自引：0，他引：9

张浩李利军林岚《计算机与数字工程》2005,33(12):60-62,98

由于图形处理器（GPU）最近几年迅速发展,国内外学者已经将基于GPU的通用计算作为一个新的研究领域。本文在研究国外最新文献的基础上,分析了GPU本身的特性,阐明了基于GPU的应用程序的结构,研究了GPU在编程方法上与普通CPU的差别,并以高斯滤波为实例详细描述了GPU编程的方法和过程。相似文献

12.

带PCA卷积的稀疏表示图像分类算法

魏明俊许道云徐梦珂《计算机工程与应用》2017,53(14):155-160

针对不同卷积核可以提取不同的图像特征,而卷积核的训练比较困难这一问题,提出一种带主成分分析（PCA）卷积的稀疏表示分类算法。先对训练样本集做分片去均值化处理,然后直接应用PCA算法提取所有分片的前K个特征向量作为卷积核,再用这些卷积核对原始图像进行卷积操作;并提出一种自动加权策略,对卷积处理后得到的K个特征图像进行加权叠加操作;最后对特征图像进行分块直方图统计稀疏化,并应用稀疏表示分类算法进行分类。在公共人脸数据集AR、CMU Multi-PIE、ORL以及数字手写体数据集MNIST上与常用分类算法进行对比实验,实验结果表明,带PCA卷积的稀疏表示分类算法具有更高的分类准确率。相似文献

13.

基于图形处理器的Cuboid算法

周国亮冯海军何国明陈红李翠平王珊《计算机研究与发展》2009,46(Z2)

近年来,基于图形处理器的通用计算获得了广泛关注,并在多个领域取得了进展.内存OLAP减少了磁盘I/O,但基于单核或多核CPU的计算能力及cache miss成为新的性能瓶颈,从而无法保证好的效率.而图形处理器由于其众多核和高带宽能够很好地适应OLAP计算特性.通过图形处理器来加速任一cuboid的计算,从而提高整个内存OLAP系统的性能.提出了基于图形处理器的分块并行算法,并对算法进行了优化及讨论了数据稀疏和数据分布倾斜等不同条件下的算法.算法通过扩展可以突破内存限制,组成磁盘、内存、显存三级流水线,适应海量数据计算;同时算法也可以作为计算整个cube的基础.通过实验比较,基于图形处理器的算法明显优于四核CPU算法. 相似文献

14.

图形处理器在数据管理领域的应用研究综述 总被引：1，自引：0，他引：1

下载免费PDF全文

周国亮冯海军何国明陈红《计算机科学与探索》2010,4(4):289-303

比较了中央处理器和图形处理器体系结构的异同,并简要介绍了最新的图形处理器通用计算平台及不同体系结构间并行算法的异同。详细叙述了图形处理器在空间数据库、关系数据库、数据流和数据挖掘及信息检索等方面应用的技术特点;探讨了基于图形处理器的各种内外存排序算法及性能;描述了基于图形处理器的各种数据结构和索引技术;阐述了图形处理器算法优化方面的工作。最后,展望了图形处理器应用于数据管理的发展前景,并分析了这一领域未来所面临的挑战。相似文献

15.

An efficient GPU-based parallel tabu search algorithm for hardware/software co-design

Neng HOU Fazhi HE Yi ZHOU Yilin CHEN 《Frontiers of Computer Science》2020,14(5):145316

Hardware/software partitioning is an essential step in hardware/software co-design. For large size problems, it is difficult to consider both solution quality and time. This paper presents an efficient GPU-based parallel tabu search algorithm (GPTS) for HW/SW partitioning. A single GPU kernel of compacting neighborhood is proposed to reduce the amount of GPU global memory accesses theoretically. A kernel fusion strategy is further proposed to reduce the amount of GPU global memory accesses of GPTS. To further minimize the transfer overhead of GPTS between CPU and GPU, an optimized transfer strategy for GPU-based tabu evaluation is proposed, which considers that all the candidates do not satisfy the given constraint. Experiments show that GPTS outperforms state-of-the-art work of tabu search and is competitive with other methods for HW/SW partitioning. The proposed parallelization is significant when considering the ordinary GPU platform. 相似文献

16.

基于GPU的并行协同差分进化算法研究

刘剑英《计算机工程与应用》2012,48(7):48-50,123

针对大规模高维数复杂非线性函数优化的问题,提出一种新的基于GPU的协同差分进化算法。该方法将协同进化的思想引入启发式差分进化算法,随机分解大规模计算问题,利用GPU处理数据的并行性,同步计算分解后的子问题,加快算法的精度和收敛速度。实验对比结果表明,所提出的基于GPU的协同差分进化算法对大规模非线性函数优化具有更高的精度和效率。相似文献

17.

一种基于卷积的OFDM定时同步算法实现

高鸿坚李建岐陆阳《电子技术应用》2013,39(3)

针对最高传输速率为Gb/s量级的OFDM试验系统,提出一种改进的定时同步方案。基于卷积计算和自相关计算,具有较高的同步准确性及较快的帧检测速度。改进同步算法在Xilinx公司的Virtex-5 FPGA芯片中实现,其消耗的资源都能控制在总资源的20%以内。最终,该实现方案在一个实时系统中得到应用,并在这个平台上进行了性能验证。在室内无线信道环境及接收信号幅值异常情况下,该算法的实现方案都能准确、稳定地工作。相似文献

18.

双三次卷积模板算法 总被引：3，自引：0，他引：3

下载免费PDF全文

高成敏陈良林永和《计算机工程与应用》2009,45(17):151-154

双三次插值是图像空域变换的经典算法,可用于图像旋转和放缩等灰度插值。它和双线性插值相比具有更好的图像变换效果,但计算性能较低。为提高其计算性能,设计了双三次卷积模板算法：对双三次插值算法进行离散化处理,变实数运算为整数运算,得到16个模板,模板与邻域像素的灰度值进行卷积计算,得到变换后的像素的灰度值。实验表明,该算法图像旋转效果优于双线性插值算法,略低于双三次插值算法,计算性能与双线性插值相同,明显高于双三次插值算法。相似文献

19.

PMVS算法的CPU多线程和GPU两级粒度并行策略

刘金硕江庄毅徐亚渤邓娟章岚昕《计算机科学》2017,44(2):296-301

PMVS(Patch-based Multi-View Stereo)三维重建算法被广泛应用于无人机航拍影像的三维场景重建中。针对PMVS三维重建算法计算量大、时间复杂度高的问题,提出了PMVS算法的CPU多线程和GPU两级粒度并行策略(Multithread and GPU Parallel Schema,MGPS),方法具体包括:基于GPU的PMVS算法特征提取和片面扩散的并行设计;多影像的GPU和CPU任务分配机制,以使得部分任务分配给CPU采用多线程并行,部分任务分配给GPU并行时,程序总运行时间最短。实验采用搭载24核CPU和NVIDIA Tesla K20 GPU的高性能服务器作为测试平台,针对分辨率为4081×2993的16幅无人机影像进行三维重建。实验结果表明,相比串行的PMVS算法,基于MGPS的PMVS算法取得4倍左右的加速比,其中特征提取最高加速13倍,计算误差在10%以内,该方法实现了更高效的PMVS三维重建。基于MGPS的PMVS算法还可用于文物保护、医学图像处理、虚拟现实等领域。相似文献

20.

轻量化的YOLOv4目标检测算法

张宝朋康谦泽李佳萌郭俊宇陈少华《计算机工程》2022,48(8):206-214

YOLOv4目标检测算法主干网络庞大且参数量和计算量过多,难以部署在算力和存储资源有限的移动端嵌入式设备上。提出一种改进的YOLOv4目标检测算法,使用轻量化的ShuffleNet V2网络作为主干特征提取网络,更换模型激活函数及扩大卷积核,同时将YOLOv4网络中的普通卷积替换为深度可分离卷积,降低算法参数量、计算量和模型占用空间。在ShuffleNet V2网络结构的改进过程中分析并剪裁其基本组件,利用2个3 × 3卷积核级联的方式增强网络感受野,并使用Mish激活函数进一步提升网络检测精度和模型推理速度。在GPU平台和VisDrone 2020数据集上的实验结果表明,与YOLOv4算法相比,改进的YOLOv4算法在牺牲1.8个百分点的检测精度情况下,提高了27%的检测速度,压缩了23.7%的模型容量,并且能够充分发挥ZYNQ平台并行高速数据处理及低功耗的优势。相似文献