排序方式: 共有41条查询结果,搜索用时 234 毫秒
1.
描述了开源高性能编译器Open64及向量化框架,给出了多循环层进行依赖关系分析算法和收益分析方法。结合面向DSP架构的SLP向量化框架,给出了一种应用软件流水的向量化算法。实验结果表明软件流水向量化算法适用于某些计算密集的DSP应用,最高加速比达到14.2。 相似文献
2.
3.
4.
5.
在分析SM3算法的基础上详细介绍了目前Hash函数的4种硬件实现策略,同时给出了迭代方式和基于充分利用时钟周期的循环展开方式下的FPGA实现。该循环展开方式有效地减少了一半的工作时钟数和11%的运算时间,吞吐量提高了11%,且占用的硬件资源较少。 相似文献
6.
7.
为了解决算法程序自动映射到可重构媒体处理器的问题,有效提高程序并行执行的效率,提出一种具有自动并行化的任务编译前端. 该任务编译前端通过展开核心循环可提高并行执行度,在数据依赖分析确保运算正确执行的基础上,对循环体内的数组访问进行标量替换,以优化数据传输开销. 实验结果表明,该任务编译前端能有效提高代码并行性和优化数据传输能力,与Garp C编译器的编译前端相比,该任务编译前端设计的性能可提升约2~4倍. 相似文献
8.
提出了一种在高性能RISC芯片上进行图象中低层处理的寄存器优化方法,使用该方法能够处理速度提高将近一倍,在TMS320c40上所做的实验表明应用该方法能取得较好的效果。 相似文献
9.
10.
滑动窗口广泛应用于图像处理、模式识别和数字信号处理中,它具有数据量大、计算密集等特点.可重构硬件为滑动窗口应用提供了一个灵活高效的实现平台.文中基于一种存储、数据调度模型及其相应的数据通路生成技术,研究循环展开对滑动窗口应用的面积、时钟频率和吞吐率的影响.实验结果表明内层循环展开相对于外层循环展开将带来更大的控制复杂度,增加了对芯片面积的需求,然而外层循环展开需要更多的存储资源保存重用数据;当片内存储模块个数增加到一定规模时,时钟频率将随着循环展开不断降低;不同维度的应用,吞吐率随循环展开提升程度不同. 相似文献