排序方式: 共有74条查询结果,搜索用时 15 毫秒
1.
2.
大规模脉冲神经网络并行模拟是探究大脑机能的重要手段。其难点在于合理地将负载映射到并行分布式平台上,提升模拟速度。为解决该问题,提出一种基于联合权重超图划分的SNN负载均衡方法,解决并行计算中进程间计算负载与通信负载的均衡问题,提高SNN模拟速度。并使用稀疏通信的方式替代集体通信,解决事件通信过程中的数据冗余问题,提升通信效率。实验结果表明,该方法使带有STDP突触20%规模的皮质层微电路模型的模拟时间,比标准循环分配算法缩短约64.5%,比普通超图分配算法缩短约57.4%,同时事件通信数据量减少了90%以上。 相似文献
3.
4.
在数控系统中应用嵌入式Web服务器 总被引:2,自引:0,他引:2
提出了一种可应用于数控系统远程支持的嵌入式Web服务器,并说明了这种嵌入式Web服务器具体实现方法和主要功能特点. 相似文献
5.
Java实时规范(RTSJ)提出的‘区域’内存(Scoped Memory)既避免了垃圾回收对系统实时性的影响,又能充分利用内存空间,引起了众多研究人员的重视.本文讨论了‘区域’内存的实现及影响最坏情况下执行时间(WCET)的因素,并提出一种针对嵌入式实时Java处理器的‘区域’内存实现模型.该模型中非实时处理在字节码被执行之前完成,消除了运行时管理‘区域’内存对WCET的影响,在简化处理器实现的同时保证了运行时WCET的可预测性. 相似文献
6.
一种用于硬实时Java处理器的类转换器设计及实现 总被引:1,自引:0,他引:1
通过分析Class文件处理过程及其中影响实时性的操作,提出一种用于硬实时Java处理器的类转换器,它读取标准Class文件,处理并生成适合Java处理器直接执行的内存映像文件.由于装载、连接过程中大量操作(如符号引用的解析)都由类转换器提前处理完毕,使得Java处理器操作大为简化.同时,由于所有影响Java处理器实时性的操作也由类转换器提前处理,Java处理器最坏情况执行时间(Worst Case Execution Time)完全可预测. 相似文献
7.
针对zk-SNARK(zero-knowledge succinct non-interactive argument of knowledge)中计算最为耗时的多标量乘法(multi-scalar multiplication,MSM),提出了一种基于GPU的MSM并行计算方案。首先,对MSM进行细粒度任务分解,提升算法本身的计算并行性,以充分利用GPU的大规模并行计算能力。采用共享内存对同一窗口下的子MSM并行规约减少了数据传输开销。其次,提出了一种基于底层计算模块线程级任务负载搜索最佳标量窗口的窗口划分方法,以最小化MSM子任务的计算开销。最后,对标量形式转换所用数据存储结构进行优化,并通过数据重叠传输和通信时间隐藏,解决了大规模标量形式转换过程的时延问题。该MSM并行计算方法基于CUDA在NVIDIA GPU上进行了实现,并构建了完整的零知识证明异构计算系统。实验结果表明:所提出的方法相比目前业界最优的cuZK的MSM计算模块获得了1.38倍的加速比。基于所改进MSM的整体系统比业界流行的Bellman提升了186倍,同时比业界最优的异构版本Bellperson提升了1.96倍,验证了方法的有效性。 相似文献
9.
为解决证券行情数据解析处理过程中纯软件解析高延迟、高抖动、易堵塞,FPGA硬件解析哈希存储冲突、维护成本高的问题,提出一种基于OpenCL和HLS的协同开发模式。通过HLS指令级并行流水优化提高并行度、KVS存储优化减少哈希冲突、二分查找并行优化降低延迟、动态键值表存储提升存储利用率等方式在Xilinx Alevo U50 FPGA加速卡中实现了低延迟、低抖动的证券行情数据解析。实验表明,在同时处理80支股票的情况下,相比CPU I9-9900X 10C20T,解析速度提升8倍,单条行情数据解析时间控制在189.8ns,抖动幅度维持在14ns以内,与传统的HDL硬件FPGA开发模式相比,开发效率提升3倍~4倍,能够更好地适应金融市场的迭代需求。 相似文献
10.
针对高质量的轮廓提取算法计算量大、实时性差的问题,提出了一种基于现场可编程门阵列(FPGA)的图像轮廓并行计算系统。通过设计适合的硬件结构及相应的算法改进,采用了多种不同的并行方式加速算法的计算。实现了一种高质量的轮廓提取算法--Pb(Probability Boundary)算法的高速计算。实验结果表明,在FPGA工作频率200 MHz时,被处理图像分辨率为481×321时,该系统处理速度可达39帧/s,为将Pb算法应用于实际系统提供了条件。 相似文献