首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
惯性导航系统中浮点计算加速单元设计   总被引:1,自引:0,他引:1  
石英振梁加速度计采用频率输出的形式表示加速度,在惯性导航系统中,需要将频率值转换为加速度值,再进行姿态解算。采用软件方法进行浮点计算,需要耗费CPU大量的计算能力。为了优化频率转换的计算速度,设计一种面向频率转换应用的浮点计算加速单元,并基于FPGA进行了实现与验证。结果表明,系统从数据采样到频率转换,然后将频率值转换成加速度进行姿态解算,陀螺仪测得的角速度进行积分,最后完成数据融合,使用本文设计的浮点加速单元来实现频率转换,速度提高了2倍。  相似文献   

2.
TMS320C20X在数字信号处理方面具有较大的优势,而I/O控制口线相对较少。对于很多控制应用,往往同时对外部设备控制及数值计算都有较高要求,这些口线远不能满足要求。 在利用串行口进行输出口线的扩展时,需要将DSP的串行输出数据转换为并行输出端口的状态,这里利用了串并转换芯片74HC164来完成这一功能。  相似文献   

3.
来稿摘登     
<正> 该文介绍一种采用高速V/F器件AD652适合于多通道数据采集系统的高性能A/D转换电路.该VFC型A/D转换电路,同传统A/D转换器相比,具有如下优点:1)VFC型A/D转换电路是积分型的,而噪声主要是高频的,因而在积分过程中可大大抑制噪声,比常规A/D转换器受噪声影响小得多,易于实现高精度、高分辨率的A/D转换.2)同CPU的接口简单,不再需要采样保持器和多路转换开关等元件,大大简化了系统的硬件结构,提高了系统的可靠性.3)其工作不需要CPU控制,CPU只需定时去读取计数器的计数值,节省了CPU的时间.4)对于多CPU并行工作的硬件结构,只要为每个CPU设置一计数器,各计数器输入端并联后接至同一VFC输出端,因而其输出易于为多CPU共享.5)在VFC输出端和计数器输入端可以很方便地加一光电隔离器,使CPU的电源同VFC的电源完全隔离,从而有效地阻止共模干扰进入微机系统.6)能够很方便地通过改变转换时间来调整分辨  相似文献   

4.
详细介绍了一种视频采集显示系统,针对视频处理常用的视频解码芯片输出的YCbCr4∶2∶2的视频格式,用FPGA实现串并转换,颜色空间转换,去隔行处理等算法,最后通过视频编码器ADV7123实现了RGB图像的输出.  相似文献   

5.
伍世刚  钟诚 《计算机应用》2014,34(7):1857-1861
依据各级缓存容量,将CPU主存中种群个体和蚂蚁个体数据划分存储到一级、二级和三级缓存中,以减少并行计算过程中数据在各级存储之间的传输开销,在CPU与GPU之间采取异步传送和不完全传送数据、GPU多个内核函数异步执行多个流的方法,设置GPU block线程数量为16的倍数、GPU共享存储器划分大小为32倍的bank,使用GPU常量存储器存储交叉概率、变异概率等需频繁访问的只读参数,将输入串矩阵和重叠部分长度矩阵只读大数据结构绑定到GPU纹理存储器,设计实现了一种多核CPU和GPU协同求解最短公共超串问题的计算、存储和通信高效的并行算法。求解多种规模的最短公共超串问题的实验结果表明,多核CPU与GPU协同并行算法比串行算法快70倍以上。  相似文献   

6.
介绍了一种基于FPGA的新型绝对式编码器。利用FPGA和硬件描述语言,采用自顶向下的设计方法,实现了辨向模块、串/并转换模块、查表译码模块以及NiosⅡ软核CPU等功能模块的设计,以及绝对位置的准确测量。该编码器具有结构紧凑、集成度高的优点,以适应工程上对绝对式编码器小型化的要求。  相似文献   

7.
基于DSP的MSINS/GPS组合导航计算机设计   总被引:1,自引:1,他引:1  
马云峰 《微计算机信息》2007,23(17):180-181,150
介绍了以DSP为核心的MSINS/GPS分布式控制组合导航计算机的设计方法.为降低系统成本,选用TI公司的DSP作为导航算法处理机,采用TL16C550和MAX3160设计了RS-232/485/422多协议串口,实现该系统与主机的通信.鉴于GPS-OEM板异步串口输出的报文在接收时需要进行判断和校验,采用单片机单独控制接收,并将预处理数据存储到双口RAM中,节约CPU的时间.对于MSINS六路数据的采集,则采用CPLD作为调度机,将A/D转换结果也放于双端口RAM中.系统还采用GPS接收机输出的1PPS脉冲,结合CPLD产生的时序实现MSINS和GPS数据的同步采集.  相似文献   

8.
VLIW微处理器模拟器仿真实现的几个关键问题   总被引:1,自引:1,他引:0  
文章就一种VLIW体系微处理器模拟器仿真实现的几个关键问题(如模型建立、串并行的转换和数据相关等)进行了简要讨论,并提出了行之有效的解决方法.  相似文献   

9.
一、概述以微处理器为基础的系统,如不具有DMA 功能,从输入输出设备传送的数据则必须通过 CPU。在输入、输出或搜索被传送的数据块中的每个字节或字时,CPU 通常需要执行一个指令序列。这种方法的主要缺点是数据传送速度较慢。因为在数据传送过程  相似文献   

10.
并串转换电路在通信接口中具有广泛的应用,可编程逻辑阵列由于具备灵活、可重构等特点非常适应于并串转换硬件电路的实现。为了解决硬件电路结构中资源与性能的矛盾,分析比较了移位寄存器、计数器与组合逻辑条件判定三种不同的并串转换硬件电路结构,并通过设计仿真对其进行了功能验证和性能评估。实验结果表明采用移位寄存器的实现方法具有最优的速度性能,采用计数器的实现方法具有最优的性价比,采用组合逻辑条件判定的实现方法具有最少的寄存器资源消耗,可根据实际应用需求合理选择并串转换硬件电路实现方式。  相似文献   

11.
网格重排序是提升流体力学CPU和GPU并行计算效率的重要手段之一。对于非结构网格,由于其数据存储无规律,数据的间接访问会导致访存延迟,尤其是在GPU并行计算时,数据的间接访问将引起内存的非对齐访问,放大了访存延迟的影响。对此,采用Reverse Cuthill-Mckee网格重排序方法优化了非结构网格的数据局部性,并设计了一种面向编号重排序方法。算例测试表明,网格重排序不影响最终计算结果。对比分析了网格重排序对非结构求解器在CPU和GPU上的性能影响:对CPU计算,可以使部分热点函数运行时间降低约20%,整体运行时间降低15%~20%;对GPU计算,大部分热点函数运行时间可降低35%~60%,程序整体运行时间降低约40%。  相似文献   

12.
为加快TIP(Tour Into the Picture)的绘制速度,提出1种基于GPU(Graphics Processing Unit)的方法,充分利用GPU的运算能力,把背景纹理提取过程从CPU转移到GPU中进行,利用GPU固定管道进行TIP绘制,CPU负责前景模型的深度计算及纹理提取.因此,CPU与GPU可以并行运算,显著提高纹理映射速度从而缩短整个TIP绘制时间,满足用户在虚拟场景中漫游的实时性要求.  相似文献   

13.
论文针对海量地震数据并行处理平台中运行作业效率低,作业运行过程中各个模块需要互相等待的现状,提出对现有的作业串行处理的运算方式进行改变和优化.在分析了当前的作业处理机制,经过多种用例测试后,发现串行的各个模块由于互相等待,没能发挥集群节点多核的优点,CPU利用率极低.于是建立海量地震数据的作业并行处理模型,即输入模块,处理模块及输出模块分别建立独立的进程,各自独立完成相应的任务,以提高计算机CPU、内存、磁盘输入输出的利用率,各个模块不必互相等待对方而使集群节点的性能得到充分利用.  相似文献   

14.
超声弹性模式成像是新兴高端超声成像系统中出现的新型成像模式,与传统的黑白超,彩超成像模式不同,它能够为临床诊断提供组织器官的硬度信息.弹性成像模式可以帮助医生定性和定量地检测组织的弹性值变化,特别是对一些肿瘤疾病如乳腺癌等的早期检测有巨大的推动作用,因此,这一新型检测手段具有十分重大的临床应用价值.但是弹性成像系统在处理时涉及大量的复杂运算,使其难于在临床实时系统中得到应用,为此文章研究并提出一种基于CUDA(Compute Unified Device Architecture,统一计算设备架构)平台的超声弹性成像模式并行处理算法.算法包括了信号预处理,运动计算,应变估计和图像后处理与显示等处理步骤的并行实现.由弹性体模得到的数据实验表明,基于CUDA的超声弹性成像处理结果与基于CPU的实现相比,不仅可以得到相同质量的显示图像,而且可以取得较大的加速效果,满足实时系统需求,文章的数据测试显示对于256×512的信号数据能够达到63fps的帧率,速度提高了85倍.  相似文献   

15.
在临床超声实时成像系统中组织运动情况是医生想要获取的重要诊断信息, 例如心脏运动. 基于线积分卷积的二维矢量场可视化技术可以同时展现运动矢量场的强度和方向. 但这一算法在处理时涉及大量的复杂计算, 尤其是流线追踪处理部分, 使其成为临床实时成像系统中的一大性能提升瓶颈. 为此研究并提出了一种基于新兴的高性能并行计算平台Fermi架构GPU(graphics processing unit图形处理单元)的并行运动可视化算法. 数据测试结果显示, 与基于CPU的实现相比, 采用Fermi架构的GPU处理不仅可  相似文献   

16.
功耗问题已经成为高性能计算机系统设计的重要问题。并行存储系统是高性能计算机系统的重要组成部分,降低其功耗对于降低整个并行系统功耗具有重要意义。并行存储系统由存储结点组成,降低存储结点功耗是降低并行存储系统功耗的重要部分。本文针对存储结点的处理器提出了功耗优化方法,根据利用率信息调节处理器电压/频率,并通过元数据服务器指导的频率预调节算法缓解因调频所引发的响应时间滞后问题。分析表明,该方法可以有效降低存储结点功耗,实现并行存储系统的功耗优化。  相似文献   

17.
刘金硕  黄朔  邓娟 《计算机工程》2022,48(12):16-23
当使用高分辨率的图像作为图像处理算法的输入时会降低算法运行速度,将算法并行化可提升执行效率,但手动将串行程序转换为并行程序则较为繁琐,并且现有自动并行翻译工具性能不稳定,同时翻译后的程序是单一并行模式。面向基于面片的三维多视角立体视觉(PMVS)算法,提出一种从C到CUDA的自动两级并行翻译方法。使用ANTLR自动解析源C代码,通过分析数据依赖关系和循环数组私有化来识别可并行化的循环结构,将算法翻译成CPU多线程和GPU两级并行结构的代码。在算法执行过程中,将输入图像在CPU和GPU上分别进行处理,降低了算法总执行时间。实验结果表明,该方法的计算加速比随着输入图像分辨率的增加逐渐提高,最高约达到32,相比于PPCG和OpenACC自动并行翻译方法提升明显。  相似文献   

18.
针对H.264压缩编码中计算量大以及最为耗时的运动估计搜索算法的特点,利用图形处理器的并行优化思想,研究基于CUDA计算平台的运动估计搜索算法GEA(全域消除算法)的并行化处理方法,并对其中的并行设计、数据处理、结果反馈等关键技术问题,进行了详细论述。最后通过实验数据对算法运行效率进行对比分析。实验结果表明GPU中的GEA搜索算法运动搜索性能较之CPU中有显著提高。  相似文献   

19.
通过获得的计算机CPU个数对要形成的网格场进行子区域划分,对各子区域用反距离加权插值法,双线形插值方法将离散气象数据格点化后形成网格数据场,对各子区域进行OPENMP的并行算法处理形成等值线填色场。实验结果表明,并行计算使系统的处理速度有较大提高。  相似文献   

20.
医学超声脉冲多普勒成像模式是在临床超声成像系统中获得人体血管中血流分布情况的一种重要的检测工具,与传统的B超,彩超成像模式不同,超声脉冲多普勒成像模式不仅可以通过频谱图显示表示流过取样容积的血流速度变化和测定某一位置的血流,而且相比较于连续波式多普勒模式它可以消除多普勒信号的混叠效应提高检测的空间分辨率。但是脉冲多普勒系统在处理时涉及大量的复杂运算,例如FFT(快速傅里叶变换)和卷积运算等,使其难于应用到临床实时系统中。为此研究并提出了一种基于统一计算设备架构(CUDA)平台的超声脉冲多普勒成像系统的并行处理算法。该算法包括了壁滤波、频谱估计、移频处理和频谱显示后处理等处理步骤的并行实现。数据实验结果表明,基于CUDA的超声脉冲多普勒成像处理结果与基于CPU的实现相比,不仅可以得到相同质量的频谱图,而且可以取得较大的加速效果,满足实时系统需求;数据测试显示,对于65 535×20的信号数据能够达到1秒处理2 770条谱线的计算性能,速度提高了约140倍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号