共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
为了解决使用现场可编程门阵列(FPGA)进行大规模片上多核处理器模拟的容量限制难题,提出了一种新颖的FPGA模拟方法。该方法通过混合真实的处理器核与伪造的处理器核,使用1个或2个FPGA即可模拟整个片上多核处理器,而且可以有效克服FPGA的容量限制问题,同时又不过多损害对多核处理器行为特征的有效模拟。用此方法实现了周期精确的全芯片模拟,并使用流片后的片上多核处理器芯片对此模拟方法进行了有效性验证。实验很容易地实现了50MHz以上的模拟速度,比基于相同设计的软件仿真快10万倍以上。模拟速度的大幅度提升,使得可以启动未经修改的Linux操作系统和运行完整的多用户SPEC CPU2006 train测试集。这种混合真实处理器核与伪造处理器核的模拟方法为片上多核处理器的功能验证和性能评估提供了一种简单高效的途径。 相似文献
3.
提出一种基于GPU(图形处理器)和CPU协同处理实现来提高聚类算法Canopy的计算效率的优化方案。利用GPU高效的并行性和灵活的可编程性等特点,将Canopy聚类算法中比较耗时的距离计算及与阈值T1,T2的比较步骤交由GPU处理,算法其余步骤仍由CPU处理,理论上提高算法速度。 相似文献
4.
5.
3D非均匀直线网格GPU体绘制方法研究 总被引:1,自引:0,他引:1
计算机图形硬件技术的快速发展可以用来加速可视化过程,为此针对非均匀直线网格,给出了基于均匀辅助网格的CPU光线投射算法、基于辅助纹理的GPU光线投射算法,以及基于切片的3D纹理体绘制算法,并在Nvidia Geforce 6800GT图形卡上对这些算法进行了测试。结果表明,GPU算法远远快于CPU算法,而基于切片的3D纹理体绘制算法则快于GPU光线投射算法。 相似文献
6.
悬索桥结构分析中索鞍的精确模拟 总被引:3,自引:0,他引:3
为在悬索桥结构分析中精确模拟索鞍,建立了索段一端固定于鞍座上的两节点“左鞍座单元”和“右鞍座单元”,以及索段中一点固定于鞍座上的三节点“鞍座单元”,此固定点为新单元的一个节点。它们通过自动调整索与鞍座的切点而处于平衡状态,从而简化了计算。单元算法的推导基于有限元分析的基本原理和弹性悬链线的精确解,并利用了处于平衡状态时索与鞍座之间的内力关系。新单元可以考虑鞍座重量的影响,鞍槽纵向曲线可为复合圆曲线。新单元可以同常规单元一样直接用于索结构的有限元分析,设计的算例验证了其正确性,工程算例显示了其在悬索桥结构分析中的应用。 相似文献
7.
基于GPU的快速Sobel边缘检测算法 总被引:2,自引:1,他引:1
传统的Soble边缘检测算法的优化和实现都是针对常用处理器(CPU、DSP和FPGA等)提出的,难以应用在图像处理器(GPU)上.本文提出了一种基于NVIDIA公司CUDA架构图形处理器(GPU)的快速Sobel边缘检测算法.快速算法根据GPU的并行结构和硬件特点,采用了纹理存储技术、多点访问技术和对称计算技术三种加速技术,优化了数据存储结构,提高了数据访问效率,降低了算法复杂度.实验结果表明,快速算法充分利用了GPU的并行处理能力,在处理4 096x4 096分辨力的8位灰度图像时速度可达190 fps,是基于CPU实现的122倍. 相似文献
8.
《高技术通讯》2015,(4)
针对当前采用独立显卡的桌面计算机系统架构普遍存在的CPU(中心处理单元)访问GPU(图形处理单元)存储空间数据传输延迟较大的瓶颈,采用了龙芯GS464处理器核心实现的UA(uncache acceleration)机制对GPU驱动程序中的GPU存储空间访问接口进行优化,极大地提高了处理器向GPU等IO存储空间连续数据写入的速度。详细分析了龙芯处理器UA机制的原理及其相对于uncache方式IO写所能带来的性能提升。通过UA机制优化了龙芯3A+2H平台的GPU驱动性能,x11perf测试结果显示,采用UA优化GPU驱动后,Xserver的一些接口性能提升达5%~230%。将龙芯处理器的UA机制封装到了标准MMAP系统调用,并通过该扩展后的系统调用优化了Xserver的Xvideo扩展接口,实验结果显示,播放常见较高分辨率视频时该接口性能能够有6~12倍的性能提升。 相似文献
9.
提出一种基于可编程图形处理器(GPU)有效控制烟雾模拟过程的实时算法。对于给定的烟雾当前状态和目标状态,该算法以自然的烟雾流动方式实现状态之间的转换。根据Navier-Stokes方程定义烟雾流体场的物理模型,通过调整方程中的风力项以达到控制目的。风力项由驱动力和聚合力组成,驱动力促使烟朝着目标密度分布运动,聚合力则用于抵消烟的扩散现象。烟雾的速度和密度参量被整合为纹理颜色通道,并传送到像素程序中由GPU完成计算。该算法无需保证两状态之间转移为最优,从而消除了非线性优化所带来的计算成本。实验表明该算法能实时高效地模拟两种烟雾状态之间的转换。 相似文献
10.
嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式图形处理器的访存子系统结构设计。该设计主要针对图形处理流水线的访存特点,对cache的结构进行了优化,并提出了一种基于链表方式的结构,提高了访存的效率,减少了面积且降低了功耗。为了使访存子系统适配并行图形流水线,提出了一种屏幕分区方法,可以在消除cache的一致性问题的同时,使访存子系统的负载更加均衡。该设计为嵌入式图形处理器的访存子系统设计提供了借鉴。 相似文献
11.
12.
13.
目前有限元分析软件多基于中央处理器的平台方式构建,在处理复杂高层结构非线性响应分析时暴露出计算耗时多、计算效率低以及对计算硬件要求高等问题。图形处理器由于其硬件构造的先天优势,可以提供十倍乃至上百倍于中央处理器的浮点运算和并行计算性能,因而为高层结构非线性计算所面临的瓶颈问题提供了一个切实可行的解决方法。该文在构建异构并行计算平台的基础上,提出一种适用于图形处理器加速的有限元并行数值计算方法。该方法利用精细化结构分析模型的自由度数据和图形处理器中的线程建立一一对应映射关系,对动力响应的隐式积分算法进行图形处理器线程级的并行化处理,并且结合EBE单元级的优化存储空间机制,降低系统方程组求解时对内存空间的需求。通过对比振动台试验结果对该方法进行验证,并对实际高层钢筋混凝土框筒结构工程进行弹塑性地震响应分析,结果显示该文所提方法在保证模型精度前提下能有效提高大型复杂高层结构非线性响应分析效率。 相似文献
14.
针对图形处理器(GPU)架构下的软件可移植性、可编程性差的问题,为了便于在GPU上开发并行程序,通过自动映射与静态编译相结合,提出了一种新的基于制导语句控制的编译优化方法,实现了一个源到源的自动转化工具GPU-S2S,它能够将插入了制导语句的串行C程序转化为统一计算架构(CUDA)程序.实验结果表明,经GPU-S2S转化生成的代码和英伟达(NVIDIA)提供的基准测试代码具有相当的性能;与原串行程序在CPU上执行相比,转换后的并行程序在GPU上能够获取显著的性能提升. 相似文献
15.
16.
17.
18.
研究了MPEG-4纹理填充算法的特点,设计了纹理填充硬件实现的VLSI结构.在Xilinx ISE6.1i集成开发环境下,采用VHDL对该结构进行了描述,并使用了电子设计自动化(EDA)工具进行了模拟和验证.仿真和综合结果表明,所设计的VLSI处理器,逻辑功能完全正确,而且可以满足MPEG-4 Core Profiles & Level2的实时编码要求,可用于MPEG-4的VLSI实现. 相似文献
19.
20.
电磁式惯性型作动器的闭环控制策略与性能试验 总被引:1,自引:0,他引:1
针对电磁驱动AM D控制系统在开环控制模式下性能试验存在的问题,提出利用位置和速度反馈的闭环控制策略进行系统性能测试,从而可以研究系统在低频和大位移控制下的动态工作性能。首先借鉴运动伺服控制方法,把电磁驱动AM D控制系统的力-电关系模型转换成系统运动方程。其次类比于旋转电机并结合量纲分析方法,建立电磁驱动AM D控制系统闭环控制算法参数的理论计算公式,通过试验验证了公式及算法参数的准确性。最后分别进行正弦位移和阶跃位移控制下系统的闭环性能试验,实测结果表明电磁驱动AM D控制系统是一种响应迅速、线性性能良好的结构振动主动控制系统,基于试验结果与理论模型预测结果的比较,再次证实了系统力-电关系计算模型的正确性。 相似文献