期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张剑《微型机与应用》2005,24(6):49-51

从单指令多数据(SIMD)并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作中,给出了改进的图像组织优化算法,并对多个标准测试序列进行运动预测的测试。相似文献

2.

基于MMX技术的SIMD并行运算优化算法 总被引：1，自引：0，他引：1

张剑《传感技术学报》2005,18(4):897-900

将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的实时视频通信提供了保障. 相似文献

3.

使用SIMD协处理器的高性能声码器

下载免费PDF全文

高路郭立韩琼磊杨帆《计算机工程与应用》2009,45(36):66-70

近年来,传统的SOC设计方法已无法跟上数据密集型应用的需求。采用了一种面向应用的设计思路,通过添加定制的协处理器和扩展指令集的方式来加速语音编解码算法。选用可配置的LEON-2 RISC软核,并嵌入特别定制的向量乘累加单元来减少运算密集型模块的计算时间,采用不添加新的IP模块的方法改善性能。实验结果表明,对于大量使用乘累加运算的编解码算法,其加速效果最为明显,运算时间平均减少了45%。目前,整个系统已经在Stratix2 EP2S60C5 FPGA上得到了验证,频率50 MHz。相似文献

4.

一种基于SIMD技术的快速并行代数重建算法 总被引：2，自引：0，他引：2

下载免费PDF全文

刘远张定华赵歆波毛海鹏刘晓鹏《中国图象图形学报》2007,12(1):73-77

代数重建算法是解决非完全投影数据重建的有效方法,尤其在对于超出探测器尺寸范围的大型零件的无损检测中已成为最有力的关键技术,但以往算法计算量较大、耗时较长。为了快速地进行代数重建,提出了一种基于Intel处理器单指令多数据(single instruction multiple data,SIMD)技术[2]的快速并行算法,并在充分分析代数重建公式特点的基础上,设计了一套便于并行化运算的数据结构及计算流程,其在运算中可一次性加载多个打包数据,利用MMX(multimedia extension)、SSE(streaming SIMD extension)和SSE2指令完成SIMD方式计算。通过仿真实验证明,该算法在达到同样精度的前提下,不仅提高了重建速度(加速比4倍),解决了传统代数重建算法运算速度慢的瓶颈问题,并且能够较好地重建部分数据缺失的投影图像,该算法对于航空航天大型零部件的无损检测具有重要的理论意义及工程应用价值。相似文献

5.

软件SIMD的研究及应用 总被引：1，自引：0，他引：1

下载免费PDF全文

卜士喜竺红卫《计算机工程》2010,36(19):53-55

介绍软件SIMD技术,在不支持SIMD架构的处理器上使用该技术实现寄存器高低字节的并行运算,提高处理器的速度。软件SIMD包括基本的加减法运算、乘法运算和点积运算。在现有研究的基础上,解决包含负数的点积运算、复数运算中应用软件SIMD技术的问题,使其能广泛应用于数字信号处理等领域。相似文献

6.

使用游程编码和SIMD指令集的快速图像融合

赵毅力徐丹钱文华张雁《计算机辅助设计与图形学学报》2016,(4):623-631

图像融合是图像拼接中的一个重要步骤,用于生成无缝的融合图像.针对当前高分辨率图像融合算法速度较慢的问题,提出一种基于多频带的快速图像融合方法.首先通过进行2遍距离变换生成一幅接缝图像,并根据这幅接缝图像生成每一幅输入图像的蒙版图像,这个过程与输入图像的次序无关,并且具有良好的可扩展性;其次使用游程编码对蒙版图像进行压缩编码,生成每一幅蒙版图像的高斯金字塔,并利用SIMD指令集生成输入图像的拉普拉斯金字塔;最后使用SIMD指令集完成拉普拉斯金字塔重构,得到一幅无缝的融合图像.在实验中对2组数据集进行测试,结果表明该方法能够高效地合成高质量的融合图像.与已有的图像融合方法相比,文中方法运行速度更快、内存使用较少、具有更好的并行性,更适合于目前的多核处理器架构. 相似文献

7.

基于SIMD架构的相干累加运算优化方法

下载免费PDF全文

陈源王元钦董绪荣《计算机工程》2011,37(20):268-270

针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据的相干积分累加计算时间为0.7 s,该运算量仅为使用普通单指令多数据流指令的6.5%,具有较高的实时性。相似文献

8.

DVR的核心技术的新突破——H.264

周华《福建电脑》2006,(4):58-59

文章分析了一个新的数字视频编码标准H．264,H．254是ITU-T的VCEG和ISO/IEC的MPEG的联合视频组 (JVT)开发的一个新的数字视频编码标准,是具有运动补偿技术的帧间预测编码。同MPEG构成mp4的技术基础。H．254草案中包含了用于差错消除的工具,便于压缩视频在误码、丢包多发环境中传输,如移动信道或IP信道中传输的健壮性。其应用前景应是不言而喻的。相似文献

9.

面向深度学习图像分类的GPU并行方法研究

韩彦岭沈思扬徐利军王静张云周汝雁《计算机工程》2023,49(1):191-200

针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。相似文献

10.

基于SIMD技术的σ-LFSR

曾光王政韩文报《计算机应用研究》2008,25(8)

σ-线性反馈移位寄存器(σ-LFSR)是一类适合软件快速实现的新型反馈移位寄存器。结合第二代单指令多数据流扩展指令集SSE2,设计了一类基于SIMD技术的σ-LFSR。这类σ-LFSR充分利用SSE2提供的128bit整数数据结构及其操作,获得了非常高的软件实现效率,同时其输出序列达到了最大周期并具有良好的随机性。所得结论表明这类基于SIMD技术的σ-LFSR可以作为适合软件实现的高速序列密码驱动部分。相似文献

11.

串并行分割法在分形图像压缩的应用

段军刘春祥《微计算机信息》2012,(5):23-24

分形理论是20世纪70年代美国Benoit B.Mandelbrot提出的,在图像压缩领域中得到了迅速的发展与应用,分形编码压缩的两大难点是如何进行图像分割和构造迭代。介于现阶段的分形压缩算法复杂,编码时间长的缺点,本文通过细化图像分割以减轻迭代时计算量的思想,采用串行边界分割与并行区域分割相合的一种改进方法。相似文献

12.

Use of parallel deterministic dynamic programming and hierarchical adaptive genetic algorithm for reservoir operation optimization 总被引：1，自引：0，他引：1

Zhongbo Zhang Shuanghu Zhang Yuhui Wang Yunzhong Jiang Hao Wang 《Computers & Industrial Engineering》2013

Reservoir operation optimization (ROO) is a complicated dynamically constrained nonlinear problem that is important in the context of reservoir system operation. In this study, parallel deterministic dynamic programming (PDDP) and a hierarchical adaptive genetic algorithm (HAGA) are proposed to solve the problem, which involves many conflicting objectives and constraints. In the PDDP method, multi-threads are found to exhibit better speed-up than single threads and to perform well for up to four threads. In the HAGA, an adaptive dynamic parameter control mechanism is applied to determine parameter settings, and an elite individual is preserved in the archive from the first hierarchy to the second hierarchy. Compared with other methods, the HAGA provides a better operational result with greater effectiveness and robustness because of the population diversity created by the archive operator. Comparison of the results of the HAGA and PDDP shows two contradictory objectives in the ROO problem-economy and reliability. The simulation results reveal that: compared with proposed PDDP, the proposed HAGA integrated with parallel model appears to be better in terms of power generation benefit and computational efficiency. 相似文献

13.

改进并行粒子群算法用于冷却水系统节能优化

于军琪高之坤赵安军周敏虎群《控制理论与应用》2022,39(3):421-431

针对冷却水系统优化问题提出一种改进并行粒子群(IPPSO)算法,以系统能耗最小为优化目标,以系统中各设备的运行参数为优化变量进行求解.在该算法中,采用随机和混沌序列机制分别对两个种群的粒子进行初始化,使两种群在产生初期便具有不同特征;并根据两种群特点,采用不同惯性权重改进策略,提高算法搜索能力;同时利用一种新迁移算子对... 相似文献

14.

A new parallel tabu search algorithm for the optimization of the maximum vertex weight clique problem

Özcan Dülger Tansel Dökeroğlu 《Concurrency and Computation》2024,36(2):e7891

The efficiency of metaheuristic algorithms depends significantly on the number of fitness value evaluations performed on candidate solutions. In addition to various intelligent techniques used to obtain better results, parallelization of calculations can substantially improve the solutions in cases where the problem is NP-hard and requires many evaluations. This study proposes a new parallel tabu search method for solving the Maximum Vertex Weight Clique Problem (MVWCP) on the Non-Uniform Memory Access (NUMA) architectures using the OpenMP parallel programming paradigm. Achieving scalability in the NUMA architectures presents significant challenges due to the high complexity of their memory systems, which can lead to performance loss. However, our proposed Tabu-NUMA algorithm provides up to

18 \times $$ 18\times $$

speed-up with 64 cores for ten basic problem instances in DIMACS-W and BHOSLIB-W benchmarks. And it improves the performance of the serial Multi Neighborhood Tabu Search (MN/TS) algorithm for 38 problem instances in DIMACS-W and BHOSLIB-W benchmarks. We further evaluate our algorithm on larger datasets with thousands of edges and vertices from Network Data Repository benchmark problem instances, and we report significant improvements in terms of speed up. Our results confirm that the Tabu-NUMA algorithm is among the best recent algorithms for solving MVWCP on the NUMA architectures. 相似文献