共查询到20条相似文献,搜索用时 0 毫秒
1.
宫昀 《自动化与仪器仪表》2023,(8):257-261+267
神经机器翻译为加深世界交流做出了巨大贡献,它的发展促进了世界化的发展。研究针对基础的Transformer模型存在的问题,对Transformer模型进行改进,进而提出一种组合式神经机器翻译模型。该模型引入ELMo、Mix-BA以及DMAL,优化了机器翻译对单词的表达形式、多头注意力层之间的联系以及句子中重点单词的关注度。研究利用WMT14en-de数据集与IWSLT14de-en数据集进行对比实验,在两种数据集中,组合式神经机器翻译模型的BLEU得分相较于Transformer基线模型分别高出1.07、0.92;在长句翻译中,组合式神经机器翻译模型的BLEU评分达到33.56,并高出LSTM模型5.72。结果表明研究所提出机器翻译模型具有更好的翻译效果,为神经机器翻译的发展提供新的思路。 相似文献
2.
深度学习可以有效地解决带噪语音信号与干净语音信号之间复杂的映射问题,改善单通道语音增强的质量,但是增强语音的质量依然不理想。Transformer在语音信号处理领域中已得到了广泛应用,由于集成了多头注意力机制,可以更好地关注语音的长时相关性,该模型可以进一步改善语音增强效果。基于此,回顾了基于深度学习的语音增强模型,归纳了Transformer模型及其内部结构,从不同实现结构出发对基于Transformer的语音增强模型分类,详细分析了几种实例模型。并在常用数据集上对比了Transformer单通道语音增强的性能,分析了它们的优缺点。对相关研究工作的不足进行了总结,并对未来发展进行展望。 相似文献
3.
针对现有的广告点击率预估模型未能精准挖掘用户历史兴趣及历史兴趣对目标广告点击与否的影响,提出了一种基于改进Transformer的广告点击率预估模型.该模型采用Transformer网络捕捉隐藏在用户点击序列背后的潜在历史兴趣;同时针对Transformer建模用户历史兴趣无法有效关联目标广告的问题,提出了一种改进的Transformer网络.改进后的Transformer不但有效建模用户历史兴趣,而且考虑了跟目标广告的关联.新模型采用辅助损失函数来监督改进的Transformer对用户历史兴趣的抽取过程,然后采用注意力机制进一步建模用户的历史兴趣和目标广告的相关性以提升模型的预估性能.实验结果表明新模型有效提升了广告点击率的预估效果. 相似文献
4.
图像分类是图像理解的基础,对计算机视觉在实际中的应用具有重要作用。然而由于图像目标形态、类型的多样性以及成像环境的复杂性,导致很多图像分类方法在实际应用中的分类结果总是差强人意,例如依然存在分类准确性低、假阳性高等问题,严重影响其在后续图像及计算机视觉相关任务中的应用。因此,如何通过后期算法提高图像分类的精度和准确性具有重要研究意义,受到越来越多的关注。随着深度学习技术的快速发展及其在图像处理中的广泛应用和优异表现,基于深度学习技术的图像分类方法研究取得了巨大进展。为了更加全面地对现有方法进行研究,紧跟最新研究进展,本文对Transformer驱动的深度学习图像分类方法和模型进行系统梳理和总结。与已有主题相似综述不同,本文重点对Transformer变体驱动的深度学习图像分类方法和模型进行归纳和总结,包括基于可扩展位置编码的Transformer图像分类方法、具有低复杂度和低计算代价的Transformer图像分类方法、局部信息与全局信息融合的Transformer图像分类方法以及基于深层ViT(visual Transformer)模型的图像分类方法等,从设计思路、结构特点和存在问题... 相似文献
5.
视频字幕在传递信息的同时,固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法,能够从带有字幕文本的视频序列中去除字幕文本,并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分,字幕掩膜提取模块和字幕去除模块,前者快速精准地获得输入视频序列的二值字幕掩膜,将得到的二值字幕掩膜作为辅助信息,输入到基于时空解耦Transformer的字幕去除模块,进行字幕文本的去除和背景纹理的恢复,实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比,在峰值信噪比和结构相异性等图像质量指标以及视觉效果上,该方法均取得了更好的性能,实验结果验证了该方法在视频字幕去除领域的有效性。 相似文献
6.
多麦克风融合降噪技术旨在降低来自多种麦克风(声学麦克风、光学麦克风、骨传导麦克风)的语音噪声,提高信噪比,从而适应不同环境。针对传统多麦克风融合降噪算法在提取不同通道特征时效果不理想的问题,提出了一种基于Transformer的多麦克风融合降噪算法。该算法有3个主要步骤,首先采用多头注意力机制使每个通道能够学习到不同的权重,更好地学习通道间的空间特征;其次将获得的通道特征以及原始特征输入到Transformer模型中,生成时域滤波器;最后通过一维卷积操作获得每个通道增强后的语音数据。实验结果表明,提出的算法能够达到更好的降噪效果。 相似文献
7.
8.
针对日趋复杂的海上交通情况,船舶航迹的跟踪预测问题显得尤为重要,然而船舶航行轨迹的数据是具有长期特性的数列,而且易受到风浪、杂波和噪声等影响,致使其特征数据动态变化,航迹规律难以把握.基于上述问题,提出一种结合Transformer模型和Kalman滤波的航迹预测方法.利用宁波市渔船AIS(Automatic Iden... 相似文献
9.
目前大多数人脸识别方法依赖于卷积神经网络,通过级联的形式构建多层处理单元,利用卷积操作融合局部特征,忽略了人脸全局语义信息,缺乏对人脸重点区域的关注度。针对上述问题,提出一种基于改进视觉Transformer的人脸识别方法,引入Shuffle Transformer作为特征提取骨干网络,通过自注意力机制以及Shuffle操作捕捉特征图全局信息,建立特征点之间的长距离依赖关系,提高模型的特征感知能力;同时,结合ArcFace损失函数和中心损失函数的特点,设计融合损失作为目标函数,利用类内约束扩大角度间隔,提高特征空间的辨别性。该方法在LFW、CALFW、CPLFW、AgeDB-30和CFP五个具有挑战性的基准测试人脸数据集上分别取得了99.83%、95.87%、90.05%、98.05%、97.23%的平均准确率,能够有效提升人脸特征提取能力,识别效果优于同等规模卷积神经网络。 相似文献
10.
目的 图像超分辨率重建的目的是将低分辨率图像复原出具有更丰富细节信息的高分辨率图像。近年来,基于Transformer的深度神经网络在图像超分辨率重建领域取得了令人瞩目的性能,然而,这些网络往往参数量巨大、计算成本较高。针对该问题,设计了一种轻量级图像超分辨率重建网络。方法 提出了一种轻量级图像超分辨率的蓝图可分离卷积Transformer网络(blueprint separable convolution Transformer network,BSTN)。基于蓝图可分离卷积(blueprint separable convolution,BSConv)设计了蓝图前馈神经网络和蓝图多头自注意力模块。然后设计了移动通道注意力模块(shift channel attention block,SCAB)对通道重点信息进行加强,包括移动卷积、对比度感知通道注意力和蓝图前馈神经网络。最后设计了蓝图多头自注意力模块(blueprint multi-head self-attention block,BMSAB),通过蓝图多头自注意力与蓝图前馈神经网络以较低的计算量实现了自注意力过程。结果 本文方法在4个数据集上与10种先进的轻量级超分辨率方法进行比较。客观上,本文方法在不同数据集上取得了不同程度的领先,并且参数量和浮点运算量都处于较低水平。当放大倍数分别为2、3和4时,在Set5数据集上相比SOTA(state-of-theart)方法,峰值信噪比(peak signal to noise ratio,PSNR)分别提升了0.11dB、0.16dB和0.17dB。主观上,本文方法重建图像清晰,模糊区域小,具有丰富的细节。结论 本文所提出的蓝图可分离卷积Transformer网络BSTN以较少的参数量和浮点运算量达到了先进水平,能获得高质量的超分辨率重建结果。 相似文献
11.
近年来,异常检测在电力系统运维、故障诊断等智能运维场景中起到关键作用。其中,深度学习在时序数据异常检测上取得了成功的应用。然而,基于长短期记忆(Long Short-Term Memory, LSTM)等异常检测方法因其序列学习模式中包含递归运算,导致模型难以并行计算,同时长期依赖性会导致模型性能下降。因此,提出了一种基于Transformer的时序数据异常检测方法,利用自注意力机制并行训练数据捕获内部有效信息,利用编码-解码框架使用端到端的方式通过时序数据生成异常得分。这个方法能更完整地提取时序数据的上下文关系,精确地捕获时序数据的异常关系。经实验证明,基于Transformer的时序数据异常检测方法在WADI、SWaT、KDDCUP99与AIOPS18等数据集上的异常检测表现出比其他方法更优的性能。 相似文献
12.
目前基于Transformer的目标跟踪算法主要利用Transformer来融合深度卷积特征,忽略了Transformer在特征提取和解码预测方面的能力。针对上述问题,提出一种基于视觉Transformer的双流目标跟踪算法。引入基于注意力机制的Swin Transformer进行特征提取,通过移位窗口进行全局信息建模。使用Transformer编码器对目标特征和搜索区域特征进行充分融合,使用解码器学习目标查询中的位置信息。分别对编解码器中的双流信息进行目标预测。在决策层面上进一步地加权融合得到最终跟踪结果,并使用多监督策略。该算法在LaSOT、TrackingNet、UAV123和NFS四个具有挑战性的大规模跟踪数据集上取得了先进的结果,分别达到67.4%、80.9%、68.6%和66.0%的成功率曲线下面积,展示了其强大的潜力。此外,由于避免了复杂的后处理步骤,能够端到端进行目标跟踪,跟踪速度可达42?FPS。 相似文献
13.
目前基于深度学习的图像去噪算法无法综合考虑局部和全局的特征信息, 进而影响细节处的图像去噪效果, 针对该问题, 提出了融合CNN和Transformer的图像去噪网络(hybrid CNN and Transformer image denoising network, HCT-Net). 首先, 提出CNN和Transformer耦合模块(CNN and Transformer coupling block, CTB), 构造融合卷积和通道自注意力的双分支结构, 缓解单纯依赖Transformer造成的高额计算开销, 同时动态分配注意力权重使网络关注重要图像特征. 其次, 设计自注意力增强卷积模块(self-attention enhanced convolution module, SAConv), 采用递进式组合模块和非线性变换, 减弱噪声信号干扰, 提升在复杂噪声水平下识别局部特征的能力. 在6个基准数据集上的实验结果表明, HCT-Net相比当前一些先进的去噪方法具有更好的特征感知能力, 能够抑制高频的噪声信号从而恢复图像的边缘和细节信息. 相似文献
14.
目标检测任务是计算机视觉领域中基础且备受关注的工作,遥感图像目标检测任务因在交通、军事、农业等方面具有重要应用价值,也成为研究的一大热点。相比自然图像,遥感图像由于受到复杂背景的干扰,以及天气、小型和不规则物体等诸多因素的影响,遥感图像目标检测任务要实现较高的精度是极具挑战性的。文中提出了一种新颖的基于移位窗口Transformer的目标检测网络。模型应用了移位窗口式Transformer模块作为特征提取的骨干,其中,Transformer的自注意力机制对于检测混乱背景下的目标十分有效,移位窗口式的模式则有效避免了大量的平方级复杂度计算。在获得骨干网络提取的特征图之后,模型使用了金字塔架构以融合不同尺度、不同语义的局部和全局特征,有效地减少了特征层之间的信息丢失,并捕捉到固有的多尺度层级关系。此外,文中还提出了自混合视觉转换器模块和跨层视觉转换器模块。自混合视觉转换器模块重新渲染了深层特征图以增强目标特征识别和表达,跨层视觉转换器模块则依据特征上下文交互等级重新排列各特征层像素的信息表达。模块融入到自下而上和自上而下双向特征路径之中,以充分利用包含不同语义的全局和局部信息。所提网络模型... 相似文献
15.
答案选择是问答系统中的关键组成部分,提升其准确性是问答系统研究的重要内容之一。近年来深度学习技术广泛应用于答案选择,获得了良好效果,但仍旧有一定的局限性。其中模型对问题语义信息利用度低、缺乏局部语义重视、句子间交互感知能力差等问题尤为突出。针对上述问题提出了一种基于Transformer和双重注意力融合的答案选择模型NHITAS(new hierarchical interactive Transformer for answer selection)。首先,在信息预处理部分提取问题类别和关键词对答案进行初步筛选,并引入外部知识作为句子额外语义补充;其次,采用分层交互的Transformer对句子进行语义上下文建模,提出了UP-Transformer(untied position-Transformer)和DA-Transformer(decay self-attention-Transformer)两种结构学习语义特征;最后,通过双重注意力融合过滤句子噪声,增强问题和答案之间的语义交互。在WikiQA和TrecQA数据集上对NHITAS的性能进行测试,实验结果表明所提模型对比其他模型,能够有效提升答案选择任务的效果。 相似文献
16.
针对域名生成算法生成的恶意域名隐蔽性高,现有方法在恶意域名检测上准确率不高的问题,提出一种基于Transformer和多特征融合的DGA域名检测方法。该方法使用Transformer编码器捕获域名字符的全局信息,通过并行深度卷积神经网络获取不同粒度的长距离上下文特征,同时引入双向长短期记忆网络BiLSTM和自注意力机制Self-Attention结合浅层CNN得到浅层时空特征,融合长距离上下文特征和浅层时空特征进行DGA域名检测。实验结果表明,所提方法在恶意域名检测方法上有更好的性能。相对于CNN、LSTM、L-PCAL和SW-DRN,所提方法在二分类实验中准确率分别提升了1.72%,1.10%,0.75%和0.34%;在多分类实验中准确率分别提升了1.75%,1.29%,0.88%和0.83%。 相似文献
17.
目前,我国高速公路拥堵程度居高不下,而交通流预测作为实现智能交通系统的重要一环,若能对其实现高精度的预测,那么将能够高效地管理交通,从而缓解拥堵。针对该问题,提出了一种考虑时空关联的多通道交通流预测方法(MCST-Transformer)。首先,将Transformer结构用于不同数据的内在规律提取,然后引入空间关联模块对不同数据间的关联特征进行挖掘,最后,借助通道注意力整合优化全局信息。采用广东省高速公路数据,实现了两小时内92个收费站的高精度流量预测。结果表明:MCST-Transformer优于传统机器学习方法以及部分基于注意力机制的时间序列模型,在120 min预测跨度下,相比贝叶斯回归,MAPE降低了5.1%;对比Seq2Seq-Att以及Seq2Seq这些深度学习算法,所提方法的总体MAPE也能降低0.5%,说明通过多通道的方式能够区分不同数据的特性,进而更好地预测。 相似文献
18.
为解决目前ViT模型无法改变输入补丁大小且输入补丁都是单一尺度信息的缺点,提出了一种基于Transformer的图像分类网络MultiFormer。MultiFormer通过AWS(attention with scale)模块,将每阶段不同尺度输入小补丁嵌入为具有丰富语义信息的大补丁;通过GLA-P(global-local attention with patch)模块交替捕获局部和全局注意力,在嵌入时同时保留了细粒度和粗粒度特征。设计了MultiFormer-tiny、-small和-base三种不同变体的MultiFormer模型网络,在ImageNet图像分类实验中top-1精度分别达到81.1%、82.2%和83.2%,后两个模型对比同体量的卷积神经网络ResNet-50和ResNet-101提升了3.1%和3.4%;对比同样基于Transformer分类模型ViT,MultiFormer-base在参数和计算量远小于ViT-Base/16模型且无须大量数据预训练前提下提升2.1%。 相似文献
19.
目的 道路裂缝是路面病害的早期征兆。定期监测路面状况、及时准确地发现路面裂缝对于交通养护机构降低成本、保证路面结构的可靠性和耐久性以及提高驾驶安全性、舒适性有重要意义。目前基于卷积神经网络的深度学习模型在长距离依赖建模方面存在不足,模型精度难以满足真实路面环境下的裂缝检测任务。一些模型通过引入空间/通道注意力机制进行长距离依赖建模,但是会导致计算量和计算复杂程度增加,无法实现实时检测。鉴于此,本文提出一种基于Transformer编码—解码结构的深度神经网络道路裂缝检测模型CTNet(crack transformer network)。方法 该模型主要由Transformer注意力模块、多尺度局部特征增强模块、上采样模块和跨越连接4部分构成。采用Transformer注意力机制能更有效提取全局和长距离依赖关系,克服传统卷积神经网络表征输入信息的短距离相关缺陷。同时,为适应裂缝尺寸变化多样性,将Transformer与多尺度局部特征增强模块相结合,从而有效整合不同尺度局部信息,克服Transformer局部特征建模不足。结果 通过与DeepCrack模型在不同裂缝检测数据集中的比较表明... 相似文献