排序方式: 共有74条查询结果,搜索用时 31 毫秒
31.
FPGA传统RTL级别开发有着较高的编程难度和较长的设计时间,这限制了FPGA在分子动力学模拟中的应用.本文使用FPGA新一代编程方案HLS,基于Alevo U50板卡设计并实现了基于可重构计算平台硬件的分子动力学短程非键成力加速器,分别从粒子配对器设计优化、计算流水线设计等方面出发,设计具有高效率、低能耗的可重构计算方法.同时针对非键成力计算中存在的动态数据流,提出了HLS+ HDL的设计方法,进而在极大缩减设计时间的同时保证加速器的性能. 相似文献
32.
心脏核磁共振成像技术由于其无电离辐射的优点已成为医疗诊断中的主要手段。对左心室、右心室以及左心肌进行准确的分割与识别是心脏手术前的重要一步,手动分割心脏结构耗时且易出错,因此自动分割双心室与心肌至关重要。提出了一种能充分利用心脏图像信息的多尺度特征融合U型神经网络MFF U-Net。首先,选择以U-Net++作为网络基本框架。其次,为了提高特征复用率,解决网络深度增加导致的过拟合问题,在U-Net++的编码部分提出了密集残差模块,使得网络在下采样过程中学习到更多有用特征。此外,在解码部分,为了使网络的分割结果更加符合目标器官之间的物理特征,用多个卷积核来扩大感受野并利用长距离依赖模块共享全局上下文信息,使得网络在编码还原的过程中尽可能地获取到目标器官之间的关系信息,从而使得分割结果更为精准。最后,考虑到双心室与左心肌的连贯性与唯一性,还添加了获取最大连通域与填充细小孔洞的后处理操作。采用的实验数据为ACDC心脏分割挑战数据集,其包含150位志愿者收缩期末期与舒张期末期的短轴心脏磁共振图像。在该数据集的测试集上进行验证,并通过在线提交的方式获取实验结果。实验结果表明,相较于其他算法,所提出的算法能够有效地分割目标器官,特别是舒张期末期的Dice系数分别达到了左心室0.96、右心室0.94和左心肌0.89,收缩期末期的分割精度达到了0.87,0.86和0.89。 相似文献
33.
34.
35.
36.
低秩矩阵恢复算法主要包括鲁棒主成分分析、矩阵补全、低秩表示,由于矩阵补全是一个NP难的问题,低秩表示涉及到字典矩阵,复杂度高,因此本文主要针对鲁棒主成分分析在FPGA上的研究与应用进行了描述,并且在CPU以及FPGA上实现了图像恢复.实验结果表明,基于FPGA的HLS设计相对于传统CPU在速度上得到了数十倍的提高. 相似文献
37.
38.
针对量化高频交易应用场景对数据传输低延迟高带宽的需求,定制一种领域专用的TCP/IP协议栈,并将其卸载到专用硬件加速模块上。采用模块化设计实现专用硬件逻辑,并与FAST协议硬件加速模块共同构成完整的低延迟高带宽高频交易系统。通过调整最大报文长度,实现64 Byte数据对齐,提升内核与高带宽内存(HBM)间的读写速率,并对内存结构进行优化,实现主机端与HBM间的4通道并行读写管理。对各功能模块进行数据流优化,最终构建全流水线架构。模块间统一使用AXI4-Stream接口连接,并绕过内存进行数据传输,实现传输性能的提升。实验结果表明,TCP/IP卸载引擎在Xilinx Alevo U50数据中心加速卡上可获得38.28 Gb/s的网络吞吐率,基础网络通信穿刺延迟最低为468.4 ns,在叠加FAST解码协议后延迟为677.9 ns,与传统软件处理网络堆栈(Intel i9-9900x+9802BF)的方式相比,TCP/IP引擎的吞吐率提升1倍,延迟降低为1/12,且延迟稳定,波动范围在10 ns左右,在满足量化高频交易场景需要的同时,有效减轻了CPU的负载。 相似文献
39.
基于微服务架构的现场可编程门阵列(FPGA)云平台在被大规模推广后积累了许多用户。针对FPGA云平台存在大量用户并发请求的问题,建立一种基于优先级调度的自定义参数响应指数计算模型。将5个请求关键影响因素作为自定义参数,采用层次分析法确定各参数权重,根据响应指数函数计算各请求的响应指数。在该模型的基础上,设计一种高并发请求调度(HCRS)算法,通过响应指数阈值对请求类别进行划分,使得高优先级请求优先得到处理,次优先级请求加入先进先出队列等待,低优先级请求暂时挂起,从而缩短请求响应时间以及请求响应延时,缓解由高并发请求带来的硬件节点资源分配压力。在真实运营的FPGA云平台中实现该算法并在实际环境中进行测试,结果表明,在并发请求量相同时,与先来先服务调度算法相比,HCRS算法的平均响应延时降低29 074 ms,平均请求响应时间缩短12 605 ms,其在提升系统吞吐量与并发度的同时可以有效优化硬件节点资源利用率。 相似文献
40.