共查询到17条相似文献,搜索用时 203 毫秒
1.
针对传统生成对抗网络(Generative Adversarial Networks,GAN)在图像翻译过程中生成图像的轮廓、纹理等特征丢失以及造成图像翻译效果不佳的问题,提出了基于改进U-Net模型的生成对抗网络图像翻译算法。首先,实验研究Pix2Pix生成对抗网络优化算法、学习率以及迭代次数对图像翻译效果的影响,确定生成对抗网络模型参数与优化方法;其次,通过增加反卷积跳跃连接的重复次数增强特征的表达能力;最后,在CUFS人脸数据库上进行实验确定模型参数。实验表明,反卷积跳跃连接的重复次数为5次时,图像翻译的用户调研满意评价指标达到42%,图像翻译的质量达到最优。 相似文献
2.
生成对抗网络(Generative adversarial network, GAN)由生成模型和判别模型构成,生成模型获取真实数据的概率分布,判别模型判断输入是真实数据还是生成器生成的数据,二者通过相互对抗训练,最终使生成模型学习到真实数据的分布,使判别模型无法准确判断输入数据的来源。生成对抗网络为视觉分类任务的算法性能的提升开辟了新的思路,自诞生之日起至今已经在各个领域产生了大量变体。本文的主要内容包括:生成对抗网络的研究现状、应用场景和基本模型架构,并列举了生成对抗网络本身所存在的弊端;从网络架构、损失函数和训练方式这三方面对生成对抗网络的各种主要典型发展进行归纳;详细总结和分析了生成对抗网络在人脸图像生成和编辑、风格迁移、图像超分辨率、图像修复,序列数据生成、视频生成等各个应用领域的算法以及对应算法的优缺点;介绍了生成对抗网络的常用评价指标并且分析了这些指标的适用场景和不足之处;最后从多个方面对生成对抗网络所面临的挑战进行了讨论,并指出了对其可能的改进方向。 相似文献
3.
端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能。而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用。本文提出一种将RNN-T(Recurrent Neural Network Transducer,RNN-T)模型与BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行结合的方法来解决上述问题,其通过用BERT模型替换RNN-T中的预测网络部分,并对整个网络进行微调,从而使RNN-T模型能有效利用BERT模型中的语言学知识,进而提高模型的识别性能。在中文普通话数据集AISHELL-1上的实验结果表明,采用所提出的方法训练后的模型与基线模型相比能获得更好的识别结果。 相似文献
4.
本论文主要研究利用语言预训练模型和深度学习,来进行文本序列到指令序列的翻译.在文本序列到指令序列翻译的领域内,优势模型按结构划分主要分为2类,一种是端到端模型,另外一种是在编码器和解码器中间引入中间逻辑表示层.与以往的方法不同,本文提出了名为混合排序填充网络的新模型.该模型将问题与一列单独组合,利用语言预训练模型获取编码,然后根据选择的模板,划分并填充不同的子任务,生成完整的指令序列.这种方法很好地利用了语言预训练模型的特点,避免引入专门的中间语义表示层或者解码器,减少了模型复杂度.在自构建的文本到指令序列数据集上取得了很好的翻译效果,翻译结果的逻辑准确率可达到89.1%. 相似文献
5.
6.
基于深度神经网络的语音分离方法大都在频域上进行训练,并且在训练过程中往往只关注目标语音特征,不考虑干扰语音特征。为此,提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入,保留了信号时延导致的相位信息。同时,利用对抗机制,使生成模型和判别模型分别训练目标语音和干扰语音的特征,提高了语音分离的有效性。实验中,采用Aishell数据集进行对比测试。结果表明,本文所提方法在三种信噪比条件下都有良好的分离效果,能更好地恢复出目标语音中的高频频段信息。 相似文献
7.
传统的生成对抗网络(GAN)在特征图较大的情况下,忽略了原始特征的表示和结构信息,并且生成图像的像素之间缺乏远距离相关性,从而导致生成的图像质量较低。为了进一步提高生成图像的质量,该文提出一种基于空间特征的生成对抗网络数据生成方法(SF-GAN)。该方法首先将空间金字塔网络加入生成器和判别器,来更好地捕捉图像的边缘等重要的描述信息;然后将生成器和判别器进行特征加强,来建模像素之间的远距离相关性。使用CelebA,SVHN,CIFAR-10等小规模数据集进行实验,通过定性和盗梦空间得分(IS)、弗雷歇距离(FID)定量评估证明了所提方法相比梯度惩罚生成对抗网络(WGAN-GP)、自注意力生成对抗网络(SAGAN)能使生成的图像具有更高的质量。并且通过实验证明了该方法生成的数据能够进一步提升分类模型的训练效果。 相似文献
8.
针对深度学习中数据增强的方法, 改进生成式对抗网络 (GAN,Generative adversarial networks)模型,形成一种快速收敛生成式对抗网络,能够克服 GAN 训练过程不稳定、收敛速度缓慢容易发生模式崩溃等问题。采用在判别器中使用多尺寸卷积,加强判别器的特征提取能力;在生成器中添加残差单元的方法,使得生成器可以快速拟合真实数据的分布;同时对判别器进行预训练的策略,有利于提高生成器前期训练稳定性和加快训练过程。运用 CIFAR-10 标准数据集进行实验,与几种基于 GAN 的模型对比,证实本文的改进算法效果较好,图像质量和多样性更优。利用本文提出的改进算法用于美国 NIH 临床数据库的胸部 X 射线数据集,生成扩充样本,经图灵测试证实了算法的有效性。 相似文献
9.
针对现有深度学习中图像数据集缺乏的问题,提出了一种基于深度卷积生成式对抗网络(Deep Convolutional Generative Adversarial Network, DCGAN)的图像数据集增强算法。该算法对DCGAN网络进行改进,首先在不过多增加计算量的前提下改进现有的激活函数,增强生成特征的丰富性与多样性;然后通过引入相对判别器有效缓解模式坍塌现象,从而提升模型稳定性;最后在现有生成器结构中引入残差块,获得相对高分辨率的生成图像。实验结果表明,将所提方法应用在MNIST、SAR和医学血细胞数据集上,图像数据增强效果与未改进的DCGAN网络相比显著提升。 相似文献
10.
融合语言模型的端到端中文语音识别算法 总被引:1,自引:0,他引:1
为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28%. 相似文献
11.
12.
由于强大的高质量图像生成能力,生成对抗网络在图像融合和图像超分辨率等计算机视觉的研究中得到了广泛关注。目前基于生成对抗网络的遥感图像融合方法只使用网络学习图像之间的映射,缺乏对遥感图像中特有的全锐化领域知识的应用。该文提出一种融入全色图空间结构信息的优化生成对抗网络遥感图像融合方法。通过梯度算子提取全色图空间结构信息,将提取的特征同时加入判别器和具有多流融合架构的生成器,设计相应的优化目标和融合规则,从而提高融合图像的质量。结合WorldView-3卫星获取的图像进行实验,结果表明,所提方法能够生成高质量的融合图像,在主观视觉和客观评价指标上都优于大多先进的遥感图像融合方法。 相似文献
13.
生成适应模型利用生成对抗网络实现模型结构,并在领域适应学习上取得了突破.但其部分网络结构缺少信息交互,且仅使用对抗学习不足以完全减小域间距离,从而使分类精度受到影响.为此,提出一种基于生成对抗网络的无监督域适应分类模型(Unsupervised Domain Adaptation classification model based on GAN,UDAG).该模型通过联合使用生成对抗网络和多核最大均值差异度量准则优化域间差异,并充分利用无监督对抗训练及监督分类训练之间的信息传递以学习源域分布和目标域分布之间的共享特征.通过在四种域适应情况下的实验结果表明,UDAG模型学习到更优的共享特征嵌入并实现了域适应图像分类,且分类精度有明显提高. 相似文献
14.
纹理合成是计算机图形学、计算机视觉和图像处理领域的研究热点之一。传统的纹理合成方法往往通过提取有效的特征样式或统计量并在该特征信息的约束下生成随机图像来实现。对抗生成网络作为一种较新的深度网络形式,通过生成器和判别器的对抗训练能够随机生成与观测数据具有相同分布的新数据。鉴于此,提出了一种基于对抗生成网络的纹理合成方法。该算法的优点是不需要经过多次迭代就能够生成更真实纹理图像,且生成图像在视觉上与观测纹理图像一致的同时具有一定随机性。一系列针对随机纹理和结构性纹理的合成实验验证了该算法的有效性。 相似文献
15.
16.
17.
本文提出了一种基于FFTNet的生成对抗网络模型来实现极端音频超分辨率任务。生成器采用并行、非因果、Non-local运算的三路分裂求和FFTNet,此浅层模型速度快,精度高,能更好的提取时域音频的长期相关结构,以期望分辨率提取特征,提升重建性能;设计匹配性能的判别器,稳定适应生成对抗架构;融合基于频域的感知损失,与样本空间损失固定加权减少重建失真和提高感知质量。从主客观进行系统评价,本文方法都优于基线模型,从2x/4x/6x倍还原效果来看,模型具有极端的高频重建能力,有助于提高音频信号的时间分辨率。 相似文献