期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《浙江大学学报(工学版)》2017,(1)

针对片上网络良率评估速度较慢、效率较低的问题,研究片上网络良率评估的GPU加速,提高评估算法的执行效率.将良率评估中的样本分析算法移植到GPU平台;在分析、比较了不同平台,随机样本生成算法优劣的基础上,发现GPU平台不适合生成样本;进一步优化CPU平台上的样本生成算法,使之能与GPU一起,实现异构并行;提出CPU生成样本、GPU执行样本分析的异构并行方案.与仅使用CPU的评估算法相比,采用提出的异构并行算法实现了10倍的运行效率提升. 相似文献

2.

国产CPU平台中并行高阶矩量法研究

林中朝陈岩张玉江树刚赵勋旺吕兆峰《西安电子科技大学学报(自然科学版)》2015,42(3):43-47

将并行高阶矩量法在纯国产CPU平台中对电磁辐射与散射问题进行了仿真计算,并以散射问题为例,对算法的并行效率进行了测试.基于高阶多项式基函数的矩量法在保证计算精度的同时,可以大幅度降低传统RWG基函数矩量法产生的未知量.基于分块矩阵的高效并行策略进一步提高了矩量法的计算规模,并加速了仿真计算的过程.数值结果表明,采用的并行高阶矩量法程序,为在纯国产超级计算平台中解决复杂电磁仿真问题提供了一条有效的途径. 相似文献

3.

基于因子分析的卷积神经网络模型压缩算法研究

刘冬冬李林才句媛媛吴刘仓肖清泰《昆明理工大学学报(自然科学版)》2024,(2):207-214

针对复杂的卷积神经网络模型存在参数规模大、运算时间长等问题,提出一种有效的卷积神经网络模型压缩算法.该算法引入因子分析的思想对卷积神经网络模型进行压缩：首先将四维的卷积核权重张量转化为二维的矩阵形式,计算相关矩阵,并对其进行奇异值分解;其次,通过控制累积方差贡献率,确定适当的因子数量,计算因子载荷矩阵;最后,重构出更具代表性的卷积核.通过在Catdog、CIFAR10、CIFAR100三个数据集上进行验证,实验结果表明：该压缩算法能够在保证卷积神经网络精度的前提下,使AlexNet、ResNet的参数压缩率达到30.7%～68.2%,运行时间减少17.53%～37.21%.从而验证了本文提出的算法在压缩率和运算效率方面的优势,为基于因子分析的卷积神经网络模型压缩提供了一种可能的框架. 相似文献

4.

基于多视图并行的可配置卷积神经网络加速器设计

应三丛彭铃《四川大学学报(工程科学版)》2022,54(2):188-195

针对商用CPU的专用许可证授权费用高和卷积神经网络性能提升等问题,提出了一种基于多视图并行且具有可配置性的卷积神经网络加速器设计,同时结合RISC-V构建该加速器的片上系统。首先,扩展一组适用高速协加速器的控制访问接口和数据访问接口。其次,卷积神经网络各运算单元以多视图并行与结构复用实现。视图并行的不同组合将影响卷积单元硬件电路结构,因此多视图并行可通过复用基本运算结构来完成。池化单元由行池化和列池化子单元构成,且共享行池化的运算结构。对于全连接单元,采用调整全连接运算参数的方法来适应卷积单元的硬件结构,从而完成模型间的复用。然后,针对不同运算单元的硬件结构设计不同寄存器组,并结合开源RISC-V处理实现多种网络模型。最后,将卷积神经网络各运算单元分别部署在不同平台,计算运算时间、吞吐量和速度等。实验结果表明,提出方法的卷积加速比是CPU的189倍, VGG16的卷积运算吞吐量可达178GOP/s。因此,利用多视图并行能够达到加速效果,且以配置寄存器方式可实现不同网络模型。相似文献

5.

一种SOC微处理器IP核的优化设计 总被引：1，自引：0，他引：1

张国萍邓先灿《杭州电子科技大学学报》2006,26(1):63-66

该文提出了多种改善微处理器设计的优化方法.在系统结构上,采用四级流水结构,改善了微处理器的执行效率;为了解决数据相关问题,采用了bypass技术,并进一步提高了流水线的效率.在CPU结构上,采用纯组合逻辑电路和改进的ALU算法,来提高处理器的速度.最后,对该CPU核完成了仿真和综合,并在FPGA上成功地实现.实验结果表明设计的SOC处理器在指令上与通用的PIC16C57的处理器兼容,而执行效率为其4倍,系统时钟可达到40MHz以上. 相似文献

6.

基于GPU并行加速变压器二维瞬态流场问题的研究及应用

任增强刘刚靳立鹏武卫革《华北电力大学学报(自然科学版)》2023,(6):66-75

针对采用无量纲最小二乘有限元法计算变压器二维瞬态流体场问题时计算时间长，效率低的问题，拟采用GPU对瞬态流体场程序进行并行加速。将瞬态流体场计算程序中计算量最大的两部分，即单元刚度阵的形成和稀疏线性方程组的求解，移植到GPU上运算，从而大幅减少计算时间。同时采用十字链表法和CSR稀疏存储结构存储方程组稀疏矩阵中的非零元素，以降低内存消耗。使用方腔驱动流模型验证了GPU并行程序的有效性，并且并行程序加速比随方腔模型规模的增大而增大。将GPU并行程序应用于变压器绕组模型的瞬态流体场仿真分析，分析结果表明，相较于串行程序，GPU并行程序加速比达到16倍左右。论文所实现的基于GPU并行计算方法为产品级变压器瞬态流体场仿真奠定了基础。相似文献

7.

立面二维水库水温模型的并行研究 总被引：1，自引：0，他引：1

梁瑞峰李嘉李克峰《四川大学学报(工程科学版)》2009,41(1):30-33

对水库水温进行预测时,传统SIMPLE算法在每个时间步上都要顺序计算流场和压力场,并进行修正,效率较低。结合其压力修正原理,提出对流场和标量方程、系数矩阵与方程求解分别进行并行处理,应用于宽度平均的立面二维水库水温模型,采用Intel四核处理器进行计算,预测结果显示串并行结果完全一致,加速比达1.5,有效地提高了该模型的计算效率。相似文献

8.

基于CPU+GPU异构并行的广义共轭余差算法性能优化

黄东强黄建强贾金芳吴利刘令斌王晓英《郑州大学学报(工学版)》2022,(6):15-21

为了提高GRAPES数值天气预报模式的计算效率,改善动力框架部分的性能,针对广义共轭余差算法(GCR)求解赫姆霍兹方程在GRAPES模式中耗时较大的问题,提出了一种基于CPU+GPU异构并行的预处理广义共轭余差算法。采用不完全LU分解对系数矩阵进行预处理来减少迭代次数,在此基础上实现了OpenMP的细粒度并行和MPI粗粒度并行,OpenMP并行主要是采用循环展开的方式对程序中无数据依赖的循环体使用编译制导来提高程序的性能;MPI并行主要是将数据划分给各个进程,采用非阻塞通信和优化进程通信数据量的方式来提高并行程序的可拓展性。实现了MPI+CUDA异构并行,MPI负责节点间进程通信以及迭代控制,CUDA负责处理计算密集型任务,将GCR中耗时较大的矩阵计算部分移植到GPU上处理,采用访存优化和数据传输优化来减少CPU和GPU间的数据传输开销。实验结果表明：与串行程序相比,OpenMP并行加速比为2.24,MPI并行加速比为3.32,MPI+CUDA异构并行加速比为4.69,实现了异构平台上的广义共轭余差算法性能优化,提高了程序的计算效率。相似文献

9.

基于GPU的快速夏克-哈特曼波前重构方法研究

卫培霞景文博刘学王晓曼朱海忱《长春理工大学学报(自然科学版)》2016,(1):66-70

在夏克-哈特曼波前重构方法中,为了提高波前重构的速度,解决实时性差的问题,提出了一种基于GPU的快速夏克-哈特曼波前重构方法：将Zernike模式波前重构算法中Zernike多项式系数和波前数据的矩阵求解部分按照棋盘式和带状式分解并行化,根据不同的分解并行模式调度线程块及线程块中的线程数,转存数据到共享内存提高数据访问效率,优化数据存储结构提高全局存储器访问带宽,多个线程并发执行,快速重构波前。实验表明：基于GPU的快速算法相比传统CPU方式具有明显加速效果,当波前插值分辨率为2048*2048时,速度甚至提高了206倍;在加速的同时仍可保持原有算法的高准确度,为高精度、高分辨率的波前重构提供了快速、实时的计算方法。相似文献

10.

直接数值模拟中三对角方程组并行算法研究 总被引：1，自引：0，他引：1

周俊虎朱晨洁王智化张彦威樊建人岑可法《浙江大学学报(工学版)》2005,39(9):1439-1444

为了提高大规模直接数值模拟（DNS）中三对角方程组的并行求解效率，提出了一种并行分裂算法.
该算法基于Wang的分裂算法，采用平均分配策略划分三对角方程组，利用非阻塞通信模式取代阻塞通信模
式，以原有空间存储新的计算结果.在Linux集群服务器上进行了两种不同规模三对角方程组的实现，并研
究了不同节点数目与计算规模下的计算时间和加速比.结果表明，该算法的计算与通信重叠度高，计算步
骤和存储开销小，具有较高的并行计算效率.在百兆网络条件下，从1×105规模矩阵开始具有明显并行优
势，并且随矩阵规模增大，加速比不断提高.该算法适用于大规模三对角矩阵的并行计算. 相似文献

11.

Design and Optimization of Winograd Convolution on Array Accelerator

Ji Lai Lixin Yang Dejian Li Chongfei Shen Xi Feng Jizeng Wei Yu Liu 《北京理工大学学报(英文版)》2023,32(1):69-81

With the rapid development and popularization of artificial intelligence technology, convolutional neural network(CNN) is applied in many fields, and begins to replace most traditional algorithms and gradually deploys to terminal devices. However, the huge data movement and computational complexity of CNN bring huge power consumption and performance challenges to the hardware, which hinders the application of CNN in embedded devices such as smartphones and smart cars. This paper implements a convolutional neural network accelerator based on Winograd convolution algorithm on field-programmable gate array (FPGA). Firstly, a convolution kernel decomposition method for Winograd convolution is proposed. The convolution kernel larger than 3×3 is divided into multiple 3×3 convolution kernels for convolution operation, and the unsynchronized long convolution operation is processed. Then, we design Winograd convolution array and use configurable multiplier to flexibly realize multiplication for data with different accuracy. Experimental results on VGG16 and AlexNet network show that our accelerator has the most energy efficient and 101 times that of the CPU, 5.8 times that of the GPU. At the same time, it has higher energy efficiency than other convolutional neural network accelerators. 相似文献

12.

一种基于GPU的快速半全局优化深度图计算方法

刘怡光赵洪田吴鹏飞徐振宇都双丽李杰《四川大学学报(工程科学版)》2017,49(6):114-121

由于图像集规模巨大、匹配信息丰富,快速精准多视图立体匹配受计算效率严重制约。针对该问题,提出一种基于GPU的快速半全局优化深度图计算方法。首先,在CPU上通过平面扫描方法计算单张图像初始匹配代价。然后,提出GPU半全局优化并行计算架构,对匹配代价进行聚合,其核心算法为：在全局进行各方向聚合任务流并行以提升众核处理器的利用率;在局部通过将各像素计算任务准确分配到各线程块内实现并行处理,且注重GPU上数据重用以避免带宽限制。再通过GPU滤波剔除突变点进行图像增强。最后,将3维空间点在各深度图像上的一致性作为异常值检测和优化的约束条件。在多组数据集上测试结果显示,该方法计算速度最高为多核CPU系统中开启2线程实现方法的22.41倍,为开启8线程实现方法的9.13倍,且与两者精度相当;与同类深度图计算方法比较结果表明, 该方法在重建过程中加速效果均为其他算法的5倍及以上;通过使用开源点云比较软件在标准测试数据集上与其他算法比较,验证了该方法能有效提高重建结果的精度和完整度。相似文献

13.

基于多核CPU的遥感去雾并行算法研究 总被引：1，自引：0，他引：1

廖国忠高慧张伟《工程地球物理学报》2017,14(3)

针对数据量较大的遥感影像进行去雾处理时出现的运行效率低下或者是计算无法进行的问题,提出了多核CPU并行去雾算法。首先对影像进行分块分割,再根据滤波影响域对分块影像进行扩边,并建立影像索引,然后将分块影像分配给不同的CPU内核进行去雾处理,最后利用影像索引将去雾处理后的分块影像进行合并。实验表明,经本文改进的并行去雾算法与传统暗通道去雾算法的去雾效果一致,而算法的执行效率得到了提高,具有很强的实用价值。相似文献

14.

基于阿里云的四维弹簧模型并行运算性能

赵高峰陈华《重庆建筑大学学报》2019,41(3):1-10

四维弹簧模型（Four-Dimensional Lattice Spring Model,4D-LSM）是一种考虑额外维相互作用的新型离散数值计算方法。该方法用于岩石破坏分析需要消耗大量计算资源,不适合在普通个人电脑上运行。基于多核并行技术,在阿里云和多核工作站等多种硬件环境下对4D-LSM的计算极限性能及瓶颈进行详细分析,主要研究了求解规模、求解类型、线程数、硬件配置等对4D-LSM求解效能的影响。研究发现,内存容量决定可计算的模型规模,弹性问题的计算时间与模型规模成正比,并行计算效率受CPU性能和内存带宽的共同影响。在不考虑经济因素的情况下,云计算在多核匹配和内存分配方面的灵活性特别适合于四维弹簧模型的并行计算分析。结果表明：基于阿里云的4D-LSM最大运算规模可以达到十亿单元,由于目前的瓶颈在于前后处理,4D-LSM目前的可分析规模仍然限制在两千万单元。最后,展示了采用极限规模的并行四维弹簧模型求解三维币形裂纹扩展的实际应用案例。相似文献

15.

异构多处理平台并行实时编码算法研究

袁三男王孟彬陶倩昀张艳秋《上海电力学院学报》2022,38(2):158-162

针对以CPU为处理平台的H.265/HEVC串并行编码效率较低的问题,设计了一种基于异构多核CPU+GPU处理平台的并行实时编码算法。按照CPU和GPU互不相同的硬件特性分配任务,降低了时间复杂度,同时使CPU和GPU的协作能力获得了提升,计算资源得到了更加合理的利用。视频编码并行化设计提高了编码效率,高清视频的编码速度最高可达26.31帧/s,实现了高清视频的实时编码。相似文献

16.

管道漏磁图像的卷积核信息熵相似度约束方法

王竹筠杨理践高松巍刘斌《沈阳工业大学学报》2020,42(1):90-95

为了提高卷积神经网络中卷积核对管道漏磁图像的特征学习能力,提出一种基于信息熵相似度约束的卷积核优化方法.建立一种信息熵相似度约束规则,通过判定条件对权值相近或相似度过高的卷积核进行优化.搭建实验平台并建立样本数据库进行实验,该方法可优化其特征提取能力,得到具有区分目标和背景语义信息能力的优化卷积核.结果表明,优化卷积核对目标具有较强的特征提取能力,能提高网络分类准确率和工作效率,实验结果与理论分析具有很好的一致性. 相似文献

17.

高性能同构多核媒体处理器

奚杰朱玥陈杰《哈尔滨工业大学学报》2011,43(5):94-98

为了大幅提高处理器的处理能力,设计了一款5核结构的同构多核处理器并实现了H.264在多核处理器上的并行解码.该多核处理器采用1个CPU作为主控处理器,另外的4个CPU作为受控处理器被调用,5个CPU可以同时访问1块32 KWord的共享存储器,任意2个CPU之间可以通过邮箱、信号量、硬件锁实现点对点的通讯.其中,主控处... 相似文献

18.

基于深度学习的核桃外壳缺陷检测

余思黔赵麒荣林嘉晨贾雁飞陈广大《吉林化工学院学报》2022,39(9):80-85

实现了对核桃外壳缺陷的快速识别,提高基于机器视觉的核桃分选效率,提出了一种基于改进的YOLOv5s核桃外壳缺陷检测方法.YOLOv5s网络中大量采用卷积核为3的卷积进行特征提取,为降低网络的计算量,提出利用深度可分离卷积代替残差网络中所采用的卷积核为3的卷积,提高对核桃外壳检测的速度.此外,为了保证精度能够满足要求,采用了改进的均值聚类对检测框进行初始化,提高生成检测框的质量,进而提高核桃外壳缺陷检测精度.由于聚类方法相对整个网络结构计算量较小,因此对核桃外壳检测的速度影响较小.通过实验对比分析,改进后的YOLOv5s能够快速识别出核桃外壳缺陷,而且识别精度基本保持不变. 相似文献

19.

基于目标形状卷积神经网络在舰船分类中的应用

下载免费PDF全文

江满星赵彤洲吴泽俊《武汉工程大学学报》2020,42(2):213-217

针对传统卷积神经网络采用通用卷积核提取目标特征造成更高的时间和空间开销的问题,提出一种适应目标几何形状的卷积核结构以替代通用卷积核,可使单个卷积核充分提取目标特征,简化目标提取过程,减少冗余计算。实验以网上收集的舰船可见光图像数据集为研究对象,实验结果表明:本方法在舰船目标识别任务中达到了99.7%的分类准确率,与目前通用的分类模型进行对比要高出约1%,训练速度是通用模型中收敛速度最快的模型的3倍。相似文献

20.

PCB测试方法综述 总被引：1，自引：0，他引：1

蔡希彪赵悦唐毅谦《辽宁工学院学报》2004,24(4):32-34

将PCB分为带微处理器的(CPU板)和不带微处理器的(普通PCB)，对PCB板的测试进行了深入研究，介绍在线测试、功能测试及组合测试和五种实用的仿真测试方法，处理器仿真测试、存贮器仿真测试、总线周期仿真测试、DMA仿真测试和通用总线仿真测试；并且对其优缺点进行比较，对其具体实现中的技术难点进行了分析。相似文献