排序方式: 共有74条查询结果,搜索用时 15 毫秒
12.
为解决证券行情数据解析处理过程中纯软件解析高延迟、高抖动、易堵塞,FPGA硬件解析哈希存储冲突、维护成本高的问题,提出一种基于OpenCL和HLS的协同开发模式。通过HLS指令级并行流水优化提高并行度、KVS存储优化减少哈希冲突、二分查找并行优化降低延迟、动态键值表存储提升存储利用率等方式在Xilinx Alevo U50 FPGA加速卡中实现了低延迟、低抖动的证券行情数据解析。实验表明,在同时处理80支股票的情况下,相比CPU I9-9900X 10C20T,解析速度提升8倍,单条行情数据解析时间控制在189.8ns,抖动幅度维持在14ns以内,与传统的HDL硬件FPGA开发模式相比,开发效率提升3倍~4倍,能够更好地适应金融市场的迭代需求。 相似文献
13.
针对高质量的轮廓提取算法计算量大、实时性差的问题,提出了一种基于现场可编程门阵列(FPGA)的图像轮廓并行计算系统。通过设计适合的硬件结构及相应的算法改进,采用了多种不同的并行方式加速算法的计算。实现了一种高质量的轮廓提取算法--Pb(Probability Boundary)算法的高速计算。实验结果表明,在FPGA工作频率200 MHz时,被处理图像分辨率为481×321时,该系统处理速度可达39帧/s,为将Pb算法应用于实际系统提供了条件。 相似文献
14.
移动机器人模糊Q-学习沿墙导航 总被引:1,自引:0,他引:1
针对在基于行为的移动机器人沿墙导航控制器的设计中缺乏足够的先验知识的问题,采用Q-学习方法让机器人通过学习来自动构建导航控制器.将模糊神经网络和Q-学习相结合,用模糊神经网络直接逼近连续状态和动作空间中的Q值函数.利用对Q值函数的优化获得控制输出.模糊神经网络中的节点根据状态动作对的各个分量和时间差分的新颖性进行自适应地添加和构造,这样不仅能克服节点选择的困难还能使网络保持适度的规模.网络中的参数采用扩展卡尔曼滤波方法进行自适应调整.基于Khepera 2机器人的沿墙导航实验验证了该方法的有效性和优越性. 相似文献
15.
分析了量子行为的粒子群QPSO算法和粒子间相互协作的CQPSO算法结构的可并行性,并结合FPGA技术可并行处理信息的特点,说明了在并行运算模式下粒子的收敛性能。实验验证了QPSO和CQPSO算法的可并行性,并得到粒子收敛的相关数据,数据表明CQPSO算法粒子的收敛精度要远优于QPSO算法,但是粒子的收敛速度上面要远低于QPSO算法。 相似文献
16.
提出了一种基于FPGA的织物疵点检测系统的实现方案,设计在充分利用FPGA的并行体系架构和丰富的块存储资源的情况下引入KLT(Kanade-Lucas-Tomasi)特征点检测算法对织物疵点进行实时检测,以灵活的硬件可编程来满足KLT检测算法的调整以适应不同的检测要求。经验证,系统可以在实际的应用中准确地检测出织物上的疵点,且检测灵活方便。 相似文献
17.
随着大数据的发展及加密场景的增多,仅以软件运行的加密方式难以满足加密性能的需求;而使用Verilog/VHDL方式实现的FPGA/ASIC加密系统又存在灵活性较差、维护升级困难等问题。针对上述问题,设计并实现了一种基于异构可重构计算的AES算法加密系统,包含了AES算法ECB、CBC、CTR三种主流模式,每种模式实现了128 bit、192 bit、256 bit三种密钥大小的加密。基于FPGA对模块分别进行了硬件加速,同时基于硬件可重构机制实现了不同模式及不同位宽加密模块的动态切换。通过在Intel Stratix 10上实现并验证该系统,实验结果表明:系统中AES-ECB、AES-CTR、AES-CBC吞吐率分别达到116.43 Gbps、60.34 Gbps、4.32 Gbps,ECB模式相比于Intel Xeon E5-2650 V2 CPU和Nvidia GeForce GTX 1080 GPU分别获得了23.18倍与1.43倍的加速比,整体系统相比纯软件方式的计算加速比达到4.72。 相似文献
18.
针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multi-scalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 相似文献
19.
基于脉冲神经网络(SNN)的神经形态计算由于工作机理更接近于生物大脑,被认为有望克服深度学习的不足而成为解决人工智能问题的更佳途径。但是如何满足高性能、低功耗和适应规模伸缩需求是神经形态计算系统需要解决的挑战性问题。基于FPGA异构计算平台ZYNQ集群,在NEST类脑仿真器上,重点解决了具有脉冲时间依赖可塑性(STDP)突触计算复杂度高、并行度低、硬件资源占用大的问题。实验结果表明,设计的方法在8节点ZYNQ 7030集群上,性能是Xeon E5-2620 CPU的14.7倍。能效比方面,是Xeon E5-2620 CPU的51.6倍,是8节点ARM Cortex-A9的20.6倍。 相似文献
20.
特征提取与描述是众多计算机视觉应用的基础。局部特征提取与描述因像素级处理产生的高维计算而导致其计算复杂、实时性差,影响了算法在实际系统中的应用。研究了局部特征提取与描述中的关键共性计算模块——图像金字塔机制及图像梯度计算。基于NVIDIA GPU/CUDA架构设计并实现了共性模块的并行计算,并通过优化全局存储、纹理存储及共享存储的访问方式进一步实现了其高效计算。实验结果表明,基于GPU的图像金字塔和图像梯度计算比CPU获得了30倍左右的加速,将实现的图像金字塔和图像梯度计算应用于HOG特征提取与描述算法,相比CPU获得了40倍左右的加速。该研究对于基于GPU实现局部特征的高速提取与描述具有现实意义。 相似文献