期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

方金生朱古沛《计算机工程与应用》2022,58(20):197-205

在基于深度学习的图像超分辨率重建领域,通过扩大网络规模以提高性能将导致计算资源损耗增加。为此,提出了一种轻量级的基于金字塔池化注意力机制网络（light-weighted pyramid pooling-based attention network,LiPAN）,该算法模型由融合注意力机制的信息蒸馏块、多层金字塔池化结构和反向注意力融合模块组成。注意力机制确保了网络对重要特征的提取,金字塔池化结构可获取更多的上下文信息,得到更准确的重建结果,蒸馏结构的引入可有效地提高网络性能并减少网络参数。与目前主流的轻量级网络模型相比,提出的LiPAN模型在Set5、Set14、BSD100及Urban100四个公共数据集分别进行2倍、3倍和4倍下采样重建并定量评估,获得最优峰值信噪比和结构相似度。由此表明,提出的LiPAN在网络模型参数与当前主流的轻量级网络相当的情况下,具有更优的超分辨率重建性能。相似文献

2.

融合注意力机制的人机交互信息半监督敏感数据抽取算法

牟少霞 吕冰彩《计算技术与自动化》2023,(3):85-89

为提高敏感数据抽取效果,提出了融合注意力机制的人机交互信息半监督敏感数据抽取方法。融合类卷积以及人机交互注意力机制构建融合交互注意力机制双向长短词记忆（Bi-LSTM-CRF）模型,通过模型的类卷积交互注意力机制将敏感词转化为字符矩阵,采用Bi-LSTM对该矩阵进行编码获得敏感词字符级特点的分布式排列,通过Bi-LSTM对该分布式排列的二次编码获得敏感词上下文信息的隐藏状态,基于该隐藏状态通过类卷积注意力层与交互注意力层进行注意力加权,获得类卷积注意力矩阵与交互注意力矩阵,拼接两个矩阵得到双层注意力矩阵,利用交互注意力层门控循环单元升级双层注意力矩阵成新的注意力矩阵,经全连接降维获取敏感词对应的预测标签,实现人机交互信息半监督敏感数据抽取。实验结果说明：该方法可有效降低敏感数据抽取复杂度,具有较高的敏感数据抽取查全率。相似文献

3.

基于FPGA的卷积神经网络硬件加速器设计

黄沛昱赵强李煜龙《计算机应用与软件》2023,(3):38-44

为了提高中小规模设备卷积神经网络的推理速度，提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元，该硬件加速器采用输入、输出二维循环展开和循环分块的方法，设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计，通过乒乓操作，降低数据传输带来的时间延迟。同时，采用16位定点量化模型中权重参数，偏置参数和输入输出特征图的像素值。实验结果表明，与通用CPU酷睿i5-4440处理器相比，在COCO数据集上准确率几乎不变的情况下，计算性能提高5.77倍。在系统时钟频率为150 MHz时，硬件加速器的计算性能达到28.88 GOPS。相似文献

4.

生物序列搜索算法hmmsearch的加速技术

下载免费PDF全文

李荣春窦勇夏飞《计算机工程》2010,36(20):265-267

在FPGA平台实现细粒度并行的hmmsearch加速技术。采用数据预取、滑动窗口和数据传递等策略实现子处理单元的数据重用。在计算矩阵块内部实现流水线计算。加速器性能为3.59 GCUPS,与CPU相比,可获得接近235倍的加速效果。与目前FPGA上同性质最快的加速器相比,单PE可获得34%的性能提升。相似文献

5.

基于生成逆推的大气湍流退化图像复原方法

崔浩然苗壮王家宝余沛毅王培龙《计算机应用研究》2024,41(1)

大气湍流是影响远距离成像质量的重要因素。虽然已有的深度学习模型能够较好地抑制大气湍流引起的图像像素几何位移与空间模糊,但是这些模型需要大量的参数和计算量。为了解决该问题,提出了一种轻量化的基于生成逆推的大气湍流退化图像复原模型,该模型包含了去模糊、去偏移和湍流再生成三个核心模块。其中,去模糊模块通过高维特征映射块、细节特征抽取块和特征补充块,抑制湍流引起的图像模糊;去偏移模块通过两层卷积,补偿湍流引起的像素位移;湍流再生成模块通过卷积等操作再次生成湍流退化图像。在去模糊模块中,设计了基于注意力的特征补充模块,该模块融合了通道注意力机制与空间混合注意力机制,能在训练过程中聚焦关注图像中的重要细节信息。在公开的Heat Chamber与自建的Helen两个数据集上,所提模型分别取得了19.94 dB、23.51 dB的峰值信噪比和0.688 2、0.752 1的结构相似性。在达到当前最佳SOTA方法性能的同时,参数量与计算量分别减少了20倍与1.8倍。实验结果表明,该方法对大气湍流退化图像复原有良好的效果。相似文献

6.

3D-MMA:基于3D集成电路的矩阵乘加速结构

王吉军郝子宇李宏亮《计算机工程与科学》2019,41(12):2110-2118

脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提升芯片计算性能,会导致频率下降、功耗剧增等问题。因此,结合3D集成电路技术,提出了一种将平面脉动阵列结构映射到3D集成电路上的双精度浮点矩阵乘加速结构3D-MMA。首先,设计了针对该结构的分块映射调度算法,提升矩阵乘计算效率;其次,提出了基于3D-MMA的加速系统,构建了3D-MMA的性能模型,并对其设计空间进行探索;最后,评估了该结构实现代价,并同已有先进加速器进行对比分析。实验结果表明,访存带宽为160GB/s时,采用4层16×16脉动阵列的堆叠结构时,3D-MMA计算峰值性能达3TFLOPS,效率达99%,且实现代价小于二维实现。在相同工艺下,同线性阵列加速器及K40GPU相比,3D-MMA的性能是后者的1.36及1.92倍,而面积远小于后者。探索了3D集成电路在高性能矩阵乘加速器设计中的优势,对未来进一步提升高性能计算平台性能具有一定的参考价值。相似文献

7.

基于GhostNet与注意力机制的YOLOv5交通目标检测

皇甫俊逸孟乔孟令辰谢宇鹏《计算机系统应用》2023,32(4):149-160

针对交通目标检测模型参数量大、检测精度低、检测速度慢、泛化性差等问题,提出一种基于GhostNet与注意力机制的YOLOv5交通目标实时检测模型.采用基于遗传算法的K-means聚类方法获取适用于车辆检测的最佳预选框;采用轻量的Ghost卷积提取目标特征,并构建基于CSP结构的C3Ghost模块,大幅度压缩模型参数量,降低计算成本,提高计算速度;在特征融合层添加Transformer block和CBAM注意力模块,来探索模型特征提取潜力以及为模型在密集对象的场景中寻找注意力区域; UA-DETRAC数据集上的消融实验和综合性能评价结果表明所提模型平均精度达到98.68%,参数量为47 M,检测速度为65 FPS,与YOLOv5相比,参数量压缩了34%,速度提升43%,平均精度提高了1.05%. 相似文献

8.

二元域大型稀疏矩阵向量乘的FPGA设计与实现

苏锦柱邬贵明贾迅《计算机工程与科学》2016,38(8):1530-1535

作为Wiedemannn算法的核心部分,稀疏矩阵向量乘是求解二元域上大型稀疏线性方程组的主要步骤。提出了一种基于FPGA的二元域大型稀疏矩阵向量乘的环网硬件系统架构,为解决Wiedemannn算法重复计算稀疏矩阵向量乘,提出了新的并行计算结构。实验分析表明,提出的架构提高了Wiedemannn算法中稀疏矩阵向量乘的并行性,同时充分利用了FPGA的片内存储器和吉比特收发器,与目前性能最好的部分可重构计算PR模型相比,实现了2.65倍的加速性能。相似文献

9.

基于知识架构的持续学习情感分类方法

王松买日旦·吾守尔古兰拜尔·吐尔洪薛源《计算机工程》2023,49(2):112-118

当情感分类模型依次学习多个领域的情感分类任务时，从新任务中学到的参数会直接修改模型原有参数，由于缺少对原有参数的保护机制，降低了模型在旧任务上的分类准确率。为缓解灾难遗忘现象对模型性能的影响，并增加任务间的知识迁移，提出一种用于中文情感分类的基于知识架构的持续学习方法。在Transformer编码层中，采用任务自注意力机制为每个任务单独设置注意力变换矩阵，通过区分任务特有的注意力参数实现知识保留。在TextCNN的全连接层中，利用任务门控注意力(HAT)机制控制每个神经元的开闭，为每个任务训练特定的网络结构，仅激活对任务重要的神经元加强知识挖掘，提升分类效率与准确率。在JD21中文数据集上的实验结果表明，该方法的Last ACC和负类F1值相比于基于HAT的持续学习方法分别提升了0.37和0.09个百分点，具有更高的分类准确率，并且有效缓解了灾难遗忘现象。相似文献

10.

轻量级卷积神经网络的硬件加速方法

吕文浩支小莉童维勤《计算机工程与设计》2024,(3):699-706

为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。相似文献

11.

基于RISC-V的图卷积神经网络加速器设计

周理赵祉乔潘国腾铁俊波赵王《计算机工程与科学》2023,(12):2113-2120

图卷积神经网络GCN当前主要在PyTorch等深度学习框架上基于GPU实现加速。然而GCN的运算过程包含多层嵌套的矩阵乘法和数据访存操作，使用GPU虽然可以满足实时性需求，但是部署代价大、能效比低。为了提高GCN算法的计算性能并保持软件灵活性，提出一种基于RSIC-V SoC的定制GCN加速器，在蜂鸟E203的SoC平台中通过点积运算扩展指令和硬件加速器软硬件协同的方法实现了针对GCN的加速，通过神经网络参数分析确定了从浮点数到32位定点数的硬件量化方案。实验结果表明，在Cora数据集上运行GCN算法时，该加速器没有精度损失，速度最高提高了6.88倍。相似文献

12.

深度层次注意力矩阵分解

李建红苏晓倩吴彩虹《计算机工程与科学》2023,45(1):28-36

矩阵分解由于其较好的评分预测能力而被广泛应用于的个性化推荐中,很多模型也在矩阵分解的基础上改进以提升推荐性能。但是,这些模型由于获取用户偏好信息的能力有限而导致其推荐效果不佳。为了充分挖掘用户的偏好信息,提出了深度层次注意矩阵分解(DeepHAMF)的推荐模型。首先,对于原始数据除了输入到多层感知机之外,还采用自注意力机制编码后再输入到多层感知机中,目标是捕获显式偏好信息,并将这部分命名为自注意力层;其次,将原始矩阵分解与注意力编码之后的矩阵分解结果分别与多层感知机输出的结果通过注意力机制融合,这样能够充分挖掘出用户的潜在偏好信息,这部分命名为层次注意力模块;最后,通过残差网络将层次注意力模块和自注意力层进行信息拟合,这部分命名为残差融合层。在公开评分数据集上的实验结果表明,DeepHAMF比现有的评分预测模型效果更好。相似文献

13.

基于注意力机制的蒙特卡罗渲染去噪方法

何凯陈纯毅胡小娟于海洋《计算机应用与软件》2023,(11):241-247

针对蒙特卡罗渲染在低采样率下绘制图像的噪声问题，提出基于注意力机制的蒙特卡罗噪声去除方法。在模型上，设计去除批归一化层的注意力残差块减少模型的计算量，引入空间注意力和通道注意力关注渲染图像的细节。使用图像的颜色和辅助信息作为网络的输入，加入感知损失函数训练网络。实验结果表明，相比其他蒙特卡罗渲染去噪方法，该方法在去除噪声的同时不仅取得了更高的量化值，而且保留了更多的细节特征。相似文献

14.

基于FPGA的深度学习目标检测系统的设计与实现 总被引：1，自引：1，他引：0

陈辰严伟夏珺柴志雷《电子技术应用》2019,45(8)

针对当前深度学习目标检测算法计算复杂度高和内存需求大等问题,设计并实现了一种基于FPGA的深度学习目标检测系统。设计对应YOLOv2-Tiny目标检测算法的硬件加速器,对加速器各模块的处理时延建模,给出卷积计算模块的详细设计。实验结果表明,与CPU相比,CPU+FPGA的异构系统是双核ARM-A9能效的67.5倍,Xeon的94.6倍;速度是双核ARM-A9的84.4倍,Xeon的5.5倍左右。并且,当前设计在性能上超过之前的工作。相似文献

15.

基于特征融合和注意力机制的图像语义分割

马冬梅黄欣悦李煜《计算机工程与科学》2023,(3):495-503

针对目前高精度语义分割模型需要大量计算资源，难以在硬件存储和计算力有限的嵌入式平台上部署，提出了一种基于特征融合和注意力机制的图像语义分割模型。首先，对基于DeepLabV3+的模型进行优化，采用通道剪枝对MobileNetV2骨干网络轻量化；然后，在轻量化后的模型中引入拆分三重注意力模块(STA)来提高特征图内部维度相关性；最后，在解码部分增加细粒度上采样模块完善边缘细节信息。在PASCAL VOC 2012和Cityscapes数据集上的实验中，本文模型的参数量仅为4.15×10⁶,浮点计算量为10.23 GFLOPs,平均交并比分别为70.98%和72.26%,表明该模型在计算资源、内存占用和准确性之间达到了较好的均衡。相似文献

16.

基于可分离结构变换的轻量级Vision Transformer

黄延辉兰海魏宪《计算机与现代化》2022,(10):75-81

由于视觉Transformer结构模型参数量大、浮点计算次数高，使得其难以部署到终端设备上。因为注意力矩阵存在低秩瓶颈，所以模型压缩算法和注意力机制加速算法不能很好地平衡模型参数量、模型推理速度和模型性能之间的关系。为了解决上述问题，本文设计一种轻量级的ViT-SST模型用于图像分类任务。首先，通过将传统全连接层转换为可分离结构，大幅度降低模型参数量且提高了模型推理速度，保证了注意力矩阵不会因出现低秩而破坏模型表达能力；其次，提出一种基于SVD分解的克罗内克积近似分解法，可以将公开的ViT-Base模型预训练参数转换至ViT-Base-SST模型，略微缓解了ViT模型的过拟合现象并提高了模型精度。在常见公开图片数据集CIFAR系列和Caltech系列上的实验验证了本文方法优于对比方法相似文献

17.

基于多层感知机和语义矩阵的答案选择模型

罗亮程春玲刘倩归耀城《计算机科学》2023,(5):270-276

答案选择是问答系统领域的关键子任务，其性能表现支撑着问答系统的发展。基于参数冻结的BERT模型生成的动态词向量存在句级语义特征匮乏、问答对词级交互关系缺失等问题。多层感知机具有多种优势，不仅能够实现深度特征挖掘，且计算成本较低。在动态文本向量的基础上，文中提出了一种基于多层感知机和语义矩阵的答案选择模型，多层感知机主要实现文本向量句级语义维度重建，而通过不同的计算方法生成语义矩阵能够挖掘不同的文本特征信息。多层感知机与基于线性模型生成的语义理解矩阵相结合，实现一个语义理解模块，旨在分别挖掘问题句和答案句的句级语义特征；多层感知机与基于双向注意力计算方法生成的语义交互矩阵相结合，实现一个语义交互模块，旨在构建问答对之间的词级交互关系。实验结果表明，所提模型在WikiQA数据集上MAP和MRR分别为0.789和0.806,相比基线模型，该模型在性能上有一致的提升，在SelQA数据集上MAP和MRR分别为0.903和0.911,也具有较好的性能表现。相似文献

18.

融合双重极化注意力的轻量化半监督语义分割

马冬梅李悦媛陈曦《计算机工程与应用》2024,(8):225-233

针对目前半监督语义分割方法复杂度高、训练精度低、参数量过大等问题,提出融合双重极化自注意力机制的轻量级半监督语义分割算法。模型使用由位置感知循环卷积构造的Resnet-101残差网络作为分割骨干网络提取深层特征。融合了通道及空间双重极化自注意力机制,在极化通道和空间注意力分支中保持较高内部分辨率。将位置感知循环卷积与通道注意力操作结合起来,提升分割精度并降低计算成本,克服硬件支持等问题。在公开数据集PASCAL VOC 2012上的实验结果显示,该算法其平均交并比可达到76.32%,较基准模型准确率提高了2.52个百分点,参数量减少了9%,模型硬件所占内存减小了61.6%。设计的模型与领域内最新算法相比,该算法在精度、模型复杂度、参数量等方面均展现出了显著的优势。相似文献

19.

基于翻译结构的相对位置注意力机制推荐模型

陶涛郑凯王一蕾郑相涵《计算机工程与设计》2021,42(10):2917-2923

基于注意力机制的推荐模型在进行特征提取时用到的绝对位置是一个静态且孤立的信息.为克服上述缺点,提出基于翻译结构的相对位置注意力机制推荐模型.以时序排列用户历史行为并构造相对位置表征,分别在计算注意力权重和输出中加入相对位置表征,加深注意力编码层和解码层并用平均注意力进行预处理.实验结果表明,与基于注意力机制的模型相比,所提模型更能捕获用户偏好的动态变化,挖掘更深层的信息,更适合处理长序列. 相似文献

20.

基于多维注意力融合的驾驶场景分割增强算法

刘奕晨章坚武胡晶《计算机应用研究》2023,40(10):3180-3185

针对使用注意力机制的语义分割模型计算资源消耗与精度不平衡的问题,提出一种轻量化的语义分割注意力增强算法。首先,基于驾驶场景中物体的形状特点设计了条状分维注意力机制,使用条形池化代替传统方形卷积,并结合降维操作分维度提取长程语义关联,削减模型计算量。接着融合通道域与空间域上的注意力,形成可叠加与拆解的轻量化多维注意力融合模块,全方位提取特征信息,进一步提升模型精度。最后,将模块插入基于ResNet-101骨干网的编码—解码网络中,指导高低层语义融合,矫正特征图边缘信息,补充预测细节。实验表明,该模块有较强的鲁棒性和泛化能力,与同类型注意力机制相比,削减了约90%的参数量以及80%的计算量,且分割精度依旧取得了稳定的提升。相似文献