首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
该文就数值运算中常见的矩阵乘法运算的实现算法展开讨论,从时间和空间不同角度分析矩阵乘法运算中影响性能的主要因素,改良了原有算法,提出了基于存储优先的数据访问方式,并结合当今比较热门的并行运算机制,提高了矩阵乘积运算的速度。  相似文献   

2.
现有RAID系统的编码算法不能同时具备较高的执行效率和较强的容错能力。为此,提出一种基于二进制矩阵的RS编码优化算法。使用RS编码中有限域内乘法运算得到转换后的二进制矩阵,采用多分法对其进行优化,从而减少编码时的异或运算次数,以此设计优化算法。实验结果表明,该算法的执行效率较高,容错能力较大。  相似文献   

3.
HXDSP平台上矩阵乘法的实现与性能分析   总被引:1,自引:0,他引:1  
《计算机工程》2019,(4):25-29
在向量处理器上进行矩阵运算时硬件资源利用率与数据处理能力较低。为此,基于魂芯数字信号处理器(HXDSP)平台,结合高效视频编码(HEVC)标准中的离散余弦变换算法,采用数据压缩式向量法实现矩阵乘法,以发挥向量处理器的硬件资源。实验结果表明,该方法可达到HXDSP的定点乘累加运算能力峰值32 GMACs,数据处理能力可达2 GPixel/s,满足HEVC编码标准的性能要求。  相似文献   

4.
基于Frobenius映射的快速标量乘算法   总被引:2,自引:1,他引:1  
标量乘法的效率决定着椭圆曲线密码体制的性能,而Koblitz曲线上的快速标量乘算法是标量乘法研究的重要课题,在标量k的TNAF约简基础上,给出了一种基于Frobenius映射的上层运算:Comb算法.在预计算阶段,该算法利用Frobenius映射对宽度为r的序列计算其对应椭圆曲线上的点,从而建立预计算表,在累加赋值阶段结合约简后的TNAF(k)和预计算表来提高效率.Comb算法基于高效的Frobenius映射无须进行倍点运算,经过Comb矩阵的组合,其所需点加量是传统算法的1/5~1/4,当行数r任意时,其效率在任意坐标下比传统Comb算法提高至少67%.  相似文献   

5.
针对基于CPU的实时渲染全频阴影算法中内存使用效率低下、CPU运算能力消耗严重等问题,提出了基于GPU的改进算法.在预计算过程中使用基于小波变换的预计算辐射度传递(PRT)算法生成PRT矩阵,然后将其编码为易于被GPU使用的稀疏形式;在渲染过程中使用具有高度并行性的片断渲染器程序进行稀疏矩阵向量快速乘法计算,以求得最终渲染结果.相对于目前基于CPU的相应算法,算法充分利用了GPU的并行计算能力,平衡了CPU与GPU之间的负载,并同时降低了内存消耗.在一般情况下,算法可以获得超过一个数量级的性能提升.  相似文献   

6.
数字信号处理芯片不能充分利用其自身提供的复数乘法指令,会造成复数乘法运算性能低下。为此,提出一种基于编译制导的复数乘法优化模块。采用传递编译制导命令,使得编译器在指令控制块中,能运用识别算法识别出与复数乘法运算相关的所有指令,并替换其中的乘法指令为单条复数乘法指令。实验结果表明,该优化模块能缩短fft_radix2和fft_radix4程序的执行时钟周期。  相似文献   

7.
有限域GF(2n)上乘法运算是影响GF(2n)上椭圆曲线密码实现效率的关键运算之一.基于窗口技术的comb乘法算法,被认为是目前有限域GF(2n)上乘法运算最快的算法之一.但是,它仍然使用了移位操作,而移位操作恰好又是域GF(2n)乘法运算中很耗时的操作.提出并实现了一种新的基于窗口技术的快速comb乘法算法,该算法避免了移位操作,且不增加异或运算次数.理论分析和实验结果表明,新算法有很好的实现效率,适合于有限域GF(2n)上椭圆曲线密码算法的软件实现.  相似文献   

8.
基于高阶近似核和傅里叶系数内插的快速频率估计算法   总被引:2,自引:0,他引:2  
通过理论分析建立了近似核和量化位数之间的约束关系,并提出无需乘法运算的高阶近似核,用于提高单比特测频算法的动态范围.此算法同时对基于近似核的傅里叶系数实部或虚部最大值附近的DFT系数内插构造频率修正项.可以避免常规测频校正算法的复数运算从而有效减少运算量.此算法简单且宜于硬件快速实现,其有效性得到了理论分析和仿真结果的验证.  相似文献   

9.
把对称三进制引入到椭圆曲线密码体制标量乘法中,对k进行重新编码,直接计算kP,以改进标量乘法的运算效率。给出将k重新编码为对称三进制串的算法,提出对称三进制标量乘法算法。相对于二进制标量乘法算法,平均效率提升5.4%。当进行预计算时,相对于二进制算法和二进制预计算算法,平均效率分别提升73.18%、15.58%,并且能减少需要存储的点数。  相似文献   

10.
适于图像压缩的二维8×8 DCT查表快速算法研究   总被引:1,自引:0,他引:1  
基于基本图像的概念及其对称性,提出一种计算二维8×8离散余弦变换(DCT)量化后系数的查表快速算法.新算法在消除乘法运算的同时也减少了加法运算量.通过设计查找表结构和组织数据,使得每次访问存储器得到的不是一个乘积数据而是一组乘积数据,有效地减少了查表次数;通过研究基本图像的对称性及DCT计算过程中数据的范围情况,减小了查找表(LUT)的长度.整个计算过程具有很强的并行性.在图像变换编码时,利用新算法可只计算需要被编码和传输的低频变换系数,以大大减少运算量.  相似文献   

11.
一种基于维层次编码的OLAP聚集查询算法   总被引:8,自引:2,他引:8  
联机分析处理(OLAP)查询往往需在海量数据上进行即席的复杂分组聚集查询,在其SQL语句中通常包含多表连接和分组聚集操作,因而减少多表连接和压缩关键字,以及对查询数据进行有效地分组聚集操作,成为ROLAP查询处理的关键问题。提出了一种基于维层次编码的新型预分组聚集算法DHEPGA.DHEPGA算法充分利用了编码长度较小的维层次编码及其前缀,来快速检索出与查询关键字相匹配的维层次编码,求得维层次属性的查询范围,减少了I/O开销,提高了OLAP查询效率。理论分析和实验结果表明,DHEPGA算法性能是非常有效的。  相似文献   

12.
提出了基于DNA下推自动机二进制减法和乘法的实现方法.一位二进制借位减法,是通过预先构造好的DNA下推自动机模型在一个试管中以该模型的运行方式自动完成运算.m位二进制借位减法,是在一位二进制减法的基础上,按照从低位到高位的顺序,将低位产生的借位作为高位试管操作巾的输入符号串,从而完成高位的减法运算.两位二进制乘法中包含移位和加法操作,在两个试管中分别设计好DNA下推自动机模型,分别完成被乘数与乘数各位的移位操作,同时结合相应的生物操作,将其作为另一个试管加法操作中的输入符号串,则加法操作中产牛的结果即为所求.在此基础上,m位二进制乘法可通过移位操作的并行性和加法操作的串行性来完成运算.这些实现方法为DNA下推自动机实现基本的算术运算提供了比较完整的运算机制.  相似文献   

13.
刘紫燕  马珊珊  白鹤 《计算机应用》2021,41(5):1419-1424
针对毫米波大规模多输入多输出(mmWave Massive MIMO)系统硬件成本高、系统开销大等问题,提出一种基于改进智能水滴的正交匹配追踪(IWD-OMP)混合预编码算法。首先,基于正交匹配追踪(OMP)算法求解预编码矩阵;其次,采用改进的智能水滴(IWD)算法求解矩阵中全局最优的索引向量;最后,通过此方法求解的矩阵无须提前构造候选矩阵,可以达到节约系统资源、降低矩阵计算复杂度的目的。实验结果表明,当发送端天线数为128,信噪比为28 dB时,与OMP算法相比,该方法的系统可达和速率提高了约7.71%;当信噪比为8 dB时,该方法的系统误码率降低约19.77%。此外,所提预编码算法对实际信道环境中非完全信道状态信息(CSI)具有鲁棒性,当信噪比取值为28 dB时,相较于完全CSI,该方法对非完全CSI的可达和速率降低了约1.08%。  相似文献   

14.
程一飞  陈文莉 《微机发展》2007,17(10):155-157
椭圆曲线标量乘是椭圆曲线密码系统中最关键、最耗时的运算,因此如何快速高效实现标量乘运算是研究的重点。目前常见的标量乘算法有:double-and-add算法,NAF算法,MOF算法等,但它们都是基于radix-2编码表示的,无论采用何种编码,倍点运算的次数都不变,减少的只是点加(或点减)运算的次数。提出一个基于radix-8表示的新的编码方法,及一个基于radix-8表示的标量乘算法,通过用八倍点运算代替倍点运算,且编码是从左到右(即从最高位向最低位)进行,编码和主计算可以合并,提高实现效率并节省内存空间。实验结果表明,该算法较经典的double-and-add算法能够提高效率30%以上。  相似文献   

15.
椭圆曲线标量乘是椭圆曲线密码系统中最关键、最耗时的运算,因此如何快速高效实现标量乘运算是研究的重点。目前常见的标量乘算法有:double-and-add算法,NAF算法,MOF算法等,但它们都是基于radix-2编码表示的,无论采用何种编码,倍点运算的次数都不变,减少的只是点加(或点减)运算的次数。提出一个基于radix-4表示的新的编码方法,并提出一个基于radix-4表示的标量乘算法,通过用四倍点运算代替倍点运算,且编码是从左到右(即从最高位向最低位)进行,编码和主计算可以合并,提高实现效率并节省内存空间。实验结果表明,该算法较经典的double-and-add算法能够提高效率30%以上。  相似文献   

16.
白鹤  刘紫燕  张杰  万培佩  马珊珊 《计算机应用》2019,39(10):3007-3012
针对大规模多输入多输出(Massive MIMO)系统下行链路预编码实现复杂、线性预编码矩阵求逆困难等问题,提出一种基于对称逐步超松弛预处理共轭梯度法(SSOR-PCG)的低复杂度预编码算法。该算法在共轭梯度(PCG)算法的基础上,采用对称逐步超松弛分裂(SSOR)算法对矩阵进行预处理以降低矩阵的条件数,达到提高预编码算法收敛速度、降低复杂度的目的。仿真结果表明:与PCG算法相比,所提出的SSOR-PCG预编码算法运行时间缩短约88.93%,在信噪比为26 dB时已收敛;与迫零预编码算法相比,所提算法迭代2次即可获得与迫零预编码算法相近的系统容量性能,复杂度降低约一个数量级,误码率降低约49.94%。  相似文献   

17.
分布式矩阵相乘是众多分布式机器学习、科学计算等应用中的关键操作,但其性能会受到系统中常见的落后节点的严重影响。最近研究者提出了基于喷泉码的编码矩阵相乘方法,能够充分利用落后节点的部分计算结果,从而大幅度减轻落后节点问题,但忽略了工作节点的存储开销。在考虑存储开销与计算完成时间之间的权衡关系的基础上,首先提出了面向异构工作节点的计算期限感知的存储优化问题;然后进一步通过理论分析,提出了基于期望近似的解决思路,并通过松弛将问题转化为凸优化问题以方便高效求解。仿真实验表明,在保证较大的任务成功率的情况下,所提方案的存储开销会随着任务期限的放宽迅速下降,并且该方案能够更大幅度降低编码带来的存储开销。也就是说,所提方案能够在保障整体计算在期限内大概率完成的前提下,大幅度降低总体的额外存储负载。  相似文献   

18.
This paper deals with iterative detection for uplink large-scale MIMO systems. The well-known iterative linear minimum mean squared error (LMMSE) detector requires quadratic complexity (per symbol per iteration) with the number of antennas, which may be a concern in large-scale MIMO. In this work, we develop approximate iterative LMMSE detectors based on transformed system models where the transformation matrices are obtained through channel matrix decompositions. It is shown that, with quasi-linear complexity (per symbol per iteration), the proposed detectors can achieve almost the same performance as the conventional LMMSE detector. It is worth mentioning that the linear transformations are also useful to reduce the complexity of downlink precoding, so the relevant computational complexity can be shared by both uplink and downlink.  相似文献   

19.
信号监控是一种有效的控制流错误检测技术,采用不同的信号函数所引起的性能开销和存储器开销差别很大,为了降低开销,提出了一种新的用于控制流错误检测的信号函数,该信号函数定义于伽罗瓦域中,给发配状态代码和计算状态信号的算法,该算法不是用穷尽搜索的方法而是通过矩阵给状态赋值,在该算法中,对的信号函数只需实现为一维表格,其开比以前的信号函数你 给出了在保证错误检测延迟一定的条件下进上步降低开销的方法,该函数  相似文献   

20.
Piecewise first- and second-order approximations are employed to design commonly used elementary function generators for neural-network emulators. Three novel schemes are proposed for the first-order approximations. The first scheme requires one multiplication, one addition, and a 28-byte lookup table. The second scheme requires one addition, a 14-byte lookup table, and no multiplication. The third scheme needs a 16-byte lookup table, no multiplication, and no addition. A second-order approximation approach provides better function precision; it requires more hardware and involves the computation of one multiplication and two additions and access to a 28-byte lookup table. We consider bit serial implementations of the schemes to reduce the hardware cost. The maximum delay for the four schemes ranges from 24- to 32-bit serial machine cycles; the second-order approximation approach has the largest delay. The proposed approach can be applied to compute other elementary function with proper considerations.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号