期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王振力白志强《数据采集与处理》2008,23(5)

研究了一种新的线性卷积混合信号的盲分离算法。该算法通过计算预白化观测数据的零时延和多时延自相关协方差矩阵,获得了多时延处理的二阶解相关统计信息。利用得到的二阶统计信息构建了两个对称正定矩阵,通过使用Cholesky分解和奇异值分解等一系列变换,得出了惟一存在的矩阵。理论分析表明,该矩阵可以使两个正定矩阵同时精确对角化。计算机仿真表明,该算法与已有算法相比,运算时间短,盲分离性能更优。相似文献

2.

浮点开方运算单元的电路设计 总被引：2，自引：0，他引：2

夏宏李笑盈王攻本《计算机工程与应用》2001,37(11):39-41,87

文章提出了一种基于逐位循环开方算法,"四位一开方"的浮点开方运算单元的电路设计方案,使限制周期时间的循环迭代部分的门级数降低到14级。按14级门延时为周期时间计算,完成一个IEEE单、双精度浮点数的开方运算分别需要15和29周期。同时,文章对目前开方运算所采用的两类主要的算法-逐位循环开方算法和牛顿－莱福森迭代开方算法进行了描述,其中包括数的冗余表示等内容。相似文献

3.

一种基于FPGA实现的优化正交匹配追踪算法设计

《电子技术应用》2015,(10):73-76

针对压缩感知重构算法中正交匹配追踪(OMP)算法在每次迭代中不能选取最优原子问题,对OMP算法进行优化设计,保证了每次迭代的当前观测信号余量最小,并提出了一种基于FPGA实现的优化OMP算法硬件结构设计。在矩阵分解部分采用了修正乔列斯基(Cholesky)分解方法,回避开方运算,以减少计算延时,易于FPGA实现。整个系统采用并行计算、资源复用技术,在提高运算速度的同时减少资源利用。在Quartus II开发环境下对该设计进行了RTL级描述,并在FPGA仿真平台上进行仿真验证。仿真结果验证了设计的正确性。相似文献

4.

一种单精度浮点倒数开方运算的硬件实现

焦永《数字社区&智能家居》2013,(9):2242-2245,2263

单精度浮点倒数开方运算在GPU设计中经常会用到。实现这种运算一般有两种方法,迭代法和查表法。迭代法要根据精度要求确定迭代次数,只需要很小的存储器保存迭代初值,但需要的运算器数量较多。查表法根据输入的数据直接从ROM中查表得到结果,需要占用的存储资源比较多。该文提出了一种间接查表法实现的浮点倒数开方运算实现方法,将迭代法和直接查表法的优点结合起来。经过理论推导和硬件仿真验证,该算法能够满足单精度浮点数的运算精度。相似文献

5.

正交匹配追踪算法的优化设计与FPGA实现 总被引：2，自引：1，他引：1

莫禹钧柏正尧黄振董亮周燕《电子技术应用》2014,40(10):79-82

设计了一种基于FPGA的正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法的硬件优化结构,对OMP算法进行了改进,大大减少了乘法运算次数;在矩阵分解部分采用了交替柯列斯基分解(Alternative Cholesky Decomposition,ACD)方法避免开方运算,以减小计算延迟,整个系统采用并行计算、资源复用技术,在提高运算速度的同时减少资源利用。在Quartus II开发环境下对该设计进行了RTL级描述,在Altera公司的Cyclone II EP2C70F672C6上进行综合并完成时序仿真,仿真结果验证了设计的正确性。相似文献

6.

基于GPU的稀疏矩阵Cholesky分解

《计算机学报》2014,(7)

稀疏矩阵Cholesky分解是求解大规模稀疏线性方程组的核心算法,也是求解过程中最耗时的部分.近年来,一系列并行算法通过图形处理器(GPU)获得了显著的加速比,然而,由于访存的不规则性以及任务间的大量数据依赖关系,稀疏矩阵Cholesky分解算法在GPU上的计算效率很低.文中实现了一种新的基于GPU的稀疏矩阵Cholesky分解算法.在数据组织方面,改进了稀疏矩阵超节点数据结构,通过超节点合并和分块控制计算粒度;在计算调度方面,将稀疏矩阵Cholesky分解过程映射为一系列的数据块任务,并设计了相应的任务生成与调度算法,在满足数据依赖性的前提下提高任务的并行性.实验结果表明,该算法能够显著提高稀疏矩阵Cholesky分解算法在GPU上的实现效率,在单个GPU上获得了相对4核CPU平台2.69~3.88倍的加速比. 相似文献

7.

基于矩阵对角化变换的高阶容积卡尔曼滤波

赵利强陈坤云王建林于涛《控制与决策》2016,31(6):1080-1086

为了提高高阶容积卡尔曼滤波器(CKF)的滤波性能, 提出一种基于矩阵对角化变换的高阶CKF 算法. 该算法基于高阶容积准则, 利用矩阵对角化变换代替标准高阶CKF 中的Cholesky 分解, 使得协方差矩阵分解后的平方根矩阵保留了原有的特征空间信息, 状态统计量计算更加准确, 从而提高了滤波精度; 同时, 矩阵对角化变换不要求协方差矩阵正定, 增强了算法滤波稳定性. 仿真结果表明, 所提出的算法是可行而有效的, 明显改善了标准高阶CKF 的滤波效果.

相似文献

8.

基于FPGA的整数开方运算

严淑芹郑先成《微处理机》2012,33(3):94-96

在使用FPGA作为控制芯片对发电机进行控制时,发电机的三相电压有效值计算涉及到开方运算。若要在FPGA上实现某个数的开方运算,QuartusII提供了开方模块altfp_sqrt,但是这个模块有严格的使用要求,要求用户输入的被开方数是IEEE754标准浮点数,altfp_sqrt模块的输出结果也是IEEE754标准浮点数。这种浮点数不便于用户使用和阅读。用VHDL语言提出了一种基于FPGA的整数转换为IEEE754标准浮点数的方法,同时也提出了基于FPGA的IEEE754标准浮点数转化为整数的方法,应用这两种方法再结合Quartus II提供的altfp_sqrt模块实现了对整数的开方运算。以Quartus II为软件工具,以Cyclone II系列的EP2C8Q208C8为硬件平台,在发电机控制应用中对方法的正确性给予了证明。相似文献

9.

基于CORDIC算法的高精度浮点对称矩阵特征值分解的FPGA实现

陈刚陈旭徐元边昳鲁华祥《计算机科学》2013,40(5):35-37

为了提高实对称矩阵特征值分解算法的速度,在FPGA上设计并实现了符合IEEE-754标准的单精度浮点(32-bit)CORDIC算法,以在保证运算精度的前提下,最大限度地优化资源和速度。整个设计是在Xilinx公司的Spartan-3xc3sd1800a-5FPGA上实现的。测试结果显示:1)对于3*3的实对称矩阵(每个矩阵元素是32-bit浮点数),精度达到2－20;2)设计实现的结构占用2467个 slices,占芯片总资源的14%,最高运行时钟频率达到154MHz。相似文献

10.

基于序贯重点采样粒子滤波和Cholesky分解的分布估计算法

张建华曾建潮《计算机研究与发展》2010,47(11)

连续域分布估计算法一般假设数据服从Gauss分布,而且大多采用了单峰的概率模型,但是对于一些复杂的优化问题,单峰的Gauss分布模型不能有效地描述解在空间的分布.提出一种基于序贯重点采样粒子滤波的分布估计算法,采用带权粒子描述优选集样本服从的概率分布,Cholesky分解法分解收缩的协方差矩阵并利用其产生下一代样本,不需要假设样本服从Gauss分布.算法采用的概率模型是多峰的.变量之间的相关性通过采样时利用群体的协方差矩阵显式地予以考虑,并对协方差矩阵为零矩阵的情况进行了处理.仿真实验结果验证了方法的正确性和有效性. 相似文献

11.

核矩阵列相关低秩近似分解算法

刘松华张军英丁彩英《模式识别与人工智能》2011,24(6):776-782

提出一种核矩阵低秩近似分解方法。首先针对传统核矩阵分解列与类别独立的假设,研究列之间的关系,结合类别设计核矩阵的列选取策略。在此基础上,将核矩阵的分解分为两个阶段,与传统分解算法只考虑对角元素占优不同,利用核矩阵列之间以及列与类别之间的关系获取的Cholesky因子进行分解,并将其基向量扩展到整个空间。最后给出近似误差界的期望值。该算法不需要列之间或列与类别独立的假设,将列与类别关联,能提取有判别能力的子矩阵,并避免对核矩阵整体进行特征值分解运算,有效降低计算量。多个数据集的实验和分析验证该算法的合理性和有效性。相似文献

12.

一种CORDIC算法的FPGA实现 总被引：1，自引：0，他引：1

牛晨晓赵忠聂聪《计算机技术与发展》2011,21(6)

CORDIC算法是实现快速精确的正、余弦函数计算的主要方法,在工程实际中有着广泛应用.在研究正、余弦函数运算的CORDIC算法简单状态机实现和高速全流水处理机实现的基础上,提出了一种单精度浮点数正、余弦函数运算的优化实现方案,并在ALTERA公司的FPGA上实现.结果表明,相比较单精度浮点数正、余弦函数运算的CORDIC算法简单状态机实现,该实现方案不仅计算速度快,而且硬件资源消耗增加少,达到了单精度浮点数正、余弦函数运算硬件实现上速度与资源占用的平衡. 相似文献

13.

基于GPU的并行Cholesky分解及其应用

沈雁戴瑜兴《计算机工程》2019,45(2):284-289

在OpenCL并行计算框架的clMAGMA库中,Cholesky分解算法采用大尺寸分块并行方法,不能充分利用GPU的高速局部存储器,且在计算过程中存在多次GPU-CPU间的数据传递。为此,提出采用小尺寸分块并行方法,充分利用GPU中的高速局部存储器,使矩阵子块的逆矩阵得到复用,完成对称正定矩阵的高效Cholesky分解,并且其能够应用于三维视觉光束平差问题中的大型正定矩阵的分解。实验结果表明,该方法的Cholesky分解速度比clMAGMA提升50%以上,针对光束平差问题,比Ceres Solver中使用的Eigen库速度提升约38倍。相似文献

14.

微分域网格变形的GPU加速算法

赵健徐凯吴玲达《小型微型计算机系统》2009,30(3)

微分域网格变形方法能够较好的保持网格模型的局部细节特征,但其计算需要耗费较长的时间.结合GPU的高速并行运算性能,设计并实现了一种基于GPU的微分域网格变形算法.通过GPU进行网格的微分坐标求解、线性系统系数矩阵的Cholesky分解、线性系统求解等运算,从而将网格局部细节特征编码和解码过程以及变形结果的绘制完全通过GPU完成.实验结果表明该算法能够有效加速微分域网格变形方法的计算和绘制. 相似文献

15.

二阶中心差分粒子滤波FastSLAM算法

代嘉惠许鹏程李小波《控制理论与应用》2018,35(9):1382-1390

为改善SLAM算法中非线性系统状态估计精度不高,计算繁杂的问题,本文创新性地提出了基于二阶中心差分滤波并融合最新观测数据来产生建议分布函数的新算法。新算法基于二阶sterling插值公式处理SLAM中的非线性系统问题,无须计算雅可比矩阵,容易实现。此外,该算法使用Cholesky分解技术,在SLAM概率估计中直接依据协方差平方根因子进行传播,保证协方差矩阵正定性的同时减小了局部线性化的截断误差。仿真试验表明,在粒子数相同的情况下,二阶中心差分FastSLAM(SOFastSLAM)在不同噪声条件下的估计精度均优于FastSLAM2.0、UFastSLAM算法,且用时最少,证实了SOFastSLAM算法的优越性。相似文献

16.

基于鱼群优化算法和Cholesky分解的RELM的基因表达数据分类

陆慧娟魏莎莎关伟缪燕子《计算机科学》2014,41(12):226-230

提出一种基于鱼群优化算法和Cholesky分解的改进的正则极限学习机算法(FSC-RELM)来对基因表达数据进行分类。FSC-RELM算法中,首先用鱼群优化算法对RELM输入层权值进行优化,其中目标函数定义为误差函数的倒数;再对RELM输出层权值矩阵进行分解,采用Cholesky分解法进行优化,以提高算法速度,减少训练时间。为了评价算法性能,对若干标准基因数据集进行了实验,结果表明,FSC-RELM算法在较短的时间内可以获得较高的分类精度,性能优异。相似文献

17.

快速开方算法在微控制器上的实现 总被引：1，自引：0，他引：1

石一辉易攀张承学《微型电脑应用》2007,23(2):28-30

本文介绍了两种微控制器快速开方算法:改进牛顿-拉夫逊算法和模拟手算开方算法。前者是以牛顿-拉夫逊算法为基础的一种改进算法;后者是模拟手算开方过程实现开方的微控制器算法,这两种算法都具有较高的开方速度和计算精度。文章中作者以32位数开方为例,详细的介绍了这两种算法用汇编语言实现的过程,并给出算法实现的流程图,最后根据两种算法的特点和实际运算时间,总结了两种算法的优缺点。相似文献

18.

基于FPGA的开方运算实现 总被引：2，自引：0，他引：2

万明康陈国军王大鸣《数据采集与处理》2006,21(Z1):232-235

开方运算作为数字信号处理(DSP)领域内的一种基本运算,其基于现场可编程门列阵(FPGA)的工程实现具有较高的难度.本文分析比较了实现开方运算的牛顿-莱福森算法、逐次逼近算法、非冗余开方算法3种算法,并给出了基于FPGA的开方器的实现方法,同时对逐次逼近算法、非冗余开方算法和IP_core的性价比进行了分析比较. 相似文献

19.

快速开方算法在微控制器上的实现

石一辉易攀张承学《微机发展》2007,17(4):80-82

介绍了两种微控制器快速开方算法:改进牛顿-拉夫逊算法和模拟手算开方算法。前者是以牛顿-拉夫逊算法为基础的一种改进算法;后者是模拟手算开方过程实现开方的微控制器算法,这两种算法都具有较高的开方速度和计算精度。笔者以32位数开方为例,详细介绍了这两种算法用汇编语言实现的过程,并给出算法实现的流程图,最后根据两种算法的特点和实际运算时间,总结了两种算法的优缺点。相似文献

20.

基于超节点LDL分解的大规模结构计算

赖智超罗晓群张其林《计算机辅助工程》2014,23(2):46-52

采用列压缩稀疏(Compressed Sparse Column,CSC)矩阵存储策略对矩阵LDL分解前进行填充元优化排序;基于消去树进行LDL符号分解,使之独立于数值分解,避免多余的内存消耗,减少不必要的数值运算.利用矩阵非零元的分布特性分析并实现超节点LDL分解算法,将稀疏矩阵的分解运算变为一系列稠密矩阵运算,并使用优化的BLAS函数库加速分解.测试表明:算法在成倍地提高计算速度的同时进一步降低内存消耗,适用于大规模的结构计算. 相似文献