期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于三值逻辑光学处理器实现向量矩阵乘法 * 总被引：4，自引：1，他引：3

李梅金翊何华灿滕亮《计算机应用研究》2009,26(8):2839-2841

向量矩阵乘法是一种应用广泛的运算,用光学方法实现向量矩阵乘法能够充分发挥光处理的并行优势,旨在提出一种新的实现向量矩阵乘法的光学方法。受到三值逻辑光学处理器结构的启发,提出用该处理器实现二进制向量矩阵乘法,这个新方法能够克服传统光学向量矩阵乘法器结构中存在的一些不足。详细说明了实现的原理和过程,并讨论了这种新方法的优点,最后展望了这种新型的光学处理器的发展前景。相似文献

2.

一种HEVC标准中IDCT变换的FPGA实现

《电子技术应用》2017,(5):38-40

为降低新一代高效视频编码(HEVC)标准中解码端多尺寸逆离散余弦变换(Inverse Discrete Cosine Transform,IDCT)中的资源消耗,设计了一种IDCT硬件电路结构。通过使用现场可编程门阵列(Field-Programmable Gate Array,FPGA)内部嵌入式RAM单元进行矩阵转置运算,从而减少了对内部寄存器的使用。对IDCT系数矩阵进行分解得到不同尺寸下的统一运算电路结构,利用流水线技术实现对运算单元的加速,同时采用并行数据调度减少数据处理等待时间。设计结果表明,设计吞吐量为3.6点/时钟周期,满足了4k×2k@30 f/s视频信号的实时处理需求。相似文献

3.

基于GPU的稀疏矩阵向量乘优化 总被引：1，自引：0，他引：1

白洪涛欧阳丹彤李熙铭李亭何丽莉《计算机科学》2010,37(8):168-171

针对稀疏矩阵运算难以发挥图形处理器的强大运算能力的现状,基于图形处理器的统一计算架构,在线程映射、数据复用等方面研究了一系列并行计算优化方法,从而完成了一种行压缩存储表示下的稀疏矩阵向量乘并行算法.这些优化方法包括:(1)利用Warp内线程天然同步特性,Half-warp完成结果向量一个元素的计算;(2)取整读取数据,实现合并访问;(3)输入向量放入纹理存储器,数据复用;(4)申请分页锁定内存,加速数据传输;(5)使用共享存储器,加速数据存取.实验分析表明,提出的各种手段起到了优化的作用.与已有的CUDPP和SpMV library中的CSR-vector算法相比,本算法获得了更高的存储器带宽和浮点运算吞吐量;整体性能比CPU串行执行版本快了3倍以上. 相似文献

4.

基于软件无线电的并行多输入多输出均衡技术

张拥军陈艇《计算机应用》2015,35(4):1179-1184

针对3GPP-LTE协议中多输入多输出(MIMO)均衡算法的高复杂度和高吞吐率问题,提出了一种面向软件无线电的并行MIMO均衡处理器,该处理器采用单指令流多数据流(SIMD)和超长指令字(VLIW)技术同时开发子载波间MIMO均衡和子载波内矩阵运算的并行性,并且每一个SIMD功能单元能够支持16 bit定点和20 bit伪浮点复数向量运算和矩阵运算,满足不同天线配置的MIMO均衡算法对处理精度、延迟和功耗的要求。实验结果表明,MIMO均衡处理器的4×4矩阵逆运算吞吐率达到了95 MInversion/s,满足3GPP-LTE协议的要求,并且其灵活可编程性和可配置性能够支持不同的均衡算法。相似文献

5.

天文图像差异算法的SoC实现

下载免费PDF全文

张强魏继增《计算机工程》2012,38(5):240-242

基于传输触发体系结构,设计一种可配置处理器T*Core,并将该处理器在现场可编程门阵列嵌入式平台上进行片上系统实现,完成AST3天文图像差异算法的数据密集型运算。应用结果表明,该设计可提高数据处理的实时性,减少硬件资源消耗,满足天文图像处理的需求。相似文献

6.

面向E级计算的高性能处理器核心运算架构研究进展

吴铁彬过锋王谛《计算机工程与科学》2023,(5):761-771

高性能计算(HPC)已经进入后E级时代。作为超算系统核心器件，高性能处理器通过核心运算架构为HPC提供超强算力。核心运算架构的研究进展代表了高性能处理器体系结构的发展方向。以面向E级计算的先进高性能处理器为目标，从运算资源组织结构、数据和指令级并行方式、领域专用加速结构、支持数据类型和算力等方面对核心运算架构研究进展进行分析和探讨，并展望了高性能处理器核心运算架构的发展趋势。超宽向量SIMD和SIMT、领域专用加速结构加速矩阵运算、支持多种低精度运算以加速HPC和AI融合，将是未来高性能处理器核心运算架构研究和发展的主要方向。相似文献

7.

基于多核处理器的多任务并行处理技术研究

汪前进高勇李存华《计算机应用与软件》2012,29(7):141-143,153

目前,多核处理器已经越来越普及,但是现有算法并不能有效地并行处理数据,造成硬件资源的浪费。为了提高多核处理器的数据处理能力,针对求两个字符串的公共子串算法,提出一种改进方法,在VS.NET环境使用TPL(任务并行库),调度改进的算法处理数据。实验结果表明,改进后的算法可以充分利用多核处理器并行处理数据的特点,提高并行加速比,大大提高数据处理效率。相似文献

8.

HEVC分像素插值与自适应环路滤波融合结构设计

李轶夫蒋毅飞陈李维刘宏伟《计算机辅助设计与图形学学报》2014,(3):493-501

在高效率视频编码(HEVC)的解码过程中,分像素插值和自适应环路滤波(ALF)是计算密集度最高的2个环节.针对传统的滤波器设计方法学在硬件资源优化方面存在的不足,提出一种HEVC分像素插值与ALF融合的滤波结构设计.通过分析传统滤波结构及其相应算法,利用改进的ALF结构处理分像素插值的垂直滤波运算,简化了分像素插值结构并降低了整体硬件开销.实验结果表明,该设计可满足HEVC标准HDTV 1080p(1920×1080@30fps)分辨率视频解码的实时性要求,同时其电路总面积在传统设计方案的基础上减少了28%. 相似文献

9.

光学向量矩阵乘法实验研究

李梅《微机发展》2012,(3):47-50

旨在对光学向量矩阵乘法进行实验研究。针对Goodman向量矩阵乘法器原理光路模型中存在的结构庞大、可实现的运算规模有限、制作成本较高等问题,提出了一种用液晶阵列实现向量矩阵乘法的方法。该方法具有易于微型化、可完成大规模的二进制向量矩阵乘法运算、制作成本较低的优点。对该方法的原理进行详细地说明;并利用本课题组开发完成的三值逻辑光处理器作为实现该方法的核心器件,完成了实验。实验结果表明该方法具有正确性和巨大的并行处理优势。相似文献

10.

利用运动向量差值改善深度学习视频隐写分析

下载免费PDF全文

胡永健黄雄波王宇飞刘琲贝刘烁炜《中国图象图形学报》2023,28(3):702-715

目的针对现有深度学习视频隐写分析网络准确率不够高的问题,本文从视频压缩编码的原理出发,发掘嵌密编码参数与其他参数之间的关系,通过拓展检测空间,构造新的检测通道,改善现有深度学习视频隐写分析网络的检测性能。方法以H. 265/HEVC(high efficiency video coding)压缩视频为例,首先通过分析运动向量的嵌密修改对运动向量差值的影响,指出可将运动向量差值作为新增的采样对象(或称检测对象);接着,提出一个构造运动向量差值检测矩阵的方法,解决了空域上采样样本稀疏、时域上样本空间位置无法对齐的问题;最后,将运动向量差值矩阵直接用于改善现有的VSRNet(video steganalysis residual network)、SCA-VSRNet(selection-channel-aware VSRNet)以及Q-VSRNet(quantitative VSRNet)等3个H. 265/HEVC深度学习视频隐写分析网络,分别得到IVSRNet(improved VSRNet)、SCA-IVSRNet(selection-channel-aware improved... 相似文献