期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

常佳王玉德吉燕妮《通信技术》2020,(2):327-334

针对传统生成对抗网络(Generative Adversarial Networks,GAN)在图像翻译过程中生成图像的轮廓、纹理等特征丢失以及造成图像翻译效果不佳的问题,提出了基于改进U-Net模型的生成对抗网络图像翻译算法。首先,实验研究Pix2Pix生成对抗网络优化算法、学习率以及迭代次数对图像翻译效果的影响,确定生成对抗网络模型参数与优化方法;其次,通过增加反卷积跳跃连接的重复次数增强特征的表达能力;最后,在CUFS人脸数据库上进行实验确定模型参数。实验表明,反卷积跳跃连接的重复次数为5次时,图像翻译的用户调研满意评价指标达到42%,图像翻译的质量达到最优。相似文献

2.

生成对抗网络的发展与挑战

下载免费PDF全文

董永生范世朝张宇马尽文《信号处理》2023,39(1):154-175

生成对抗网络（Generative adversarial network, GAN）由生成模型和判别模型构成,生成模型获取真实数据的概率分布,判别模型判断输入是真实数据还是生成器生成的数据,二者通过相互对抗训练,最终使生成模型学习到真实数据的分布,使判别模型无法准确判断输入数据的来源。生成对抗网络为视觉分类任务的算法性能的提升开辟了新的思路,自诞生之日起至今已经在各个领域产生了大量变体。本文的主要内容包括：生成对抗网络的研究现状、应用场景和基本模型架构,并列举了生成对抗网络本身所存在的弊端;从网络架构、损失函数和训练方式这三方面对生成对抗网络的各种主要典型发展进行归纳;详细总结和分析了生成对抗网络在人脸图像生成和编辑、风格迁移、图像超分辨率、图像修复,序列数据生成、视频生成等各个应用领域的算法以及对应算法的优缺点;介绍了生成对抗网络的常用评价指标并且分析了这些指标的适用场景和不足之处;最后从多个方面对生成对抗网络所面临的挑战进行了讨论,并指出了对其可能的改进方向。相似文献

3.

一种RNN-T与BERT相结合的端到端语音识别模型

郭家兴韩纪庆《智能计算机与应用》2021,11(2):169-173

端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型。然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能。而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用。本文提出一种将RNN-T(Recurrent Neural Network Transducer,RNN-T)模型与BERT(Bidirectional Encoder Representations from Transformers,BERT)模型进行结合的方法来解决上述问题,其通过用BERT模型替换RNN-T中的预测网络部分,并对整个网络进行微调,从而使RNN-T模型能有效利用BERT模型中的语言学知识,进而提高模型的识别性能。在中文普通话数据集AISHELL-1上的实验结果表明,采用所提出的方法训练后的模型与基线模型相比能获得更好的识别结果。相似文献

4.

基于混合排序填充网络的文本到指令序列翻译

张晓芳欧睿曾钰城饶攀军陈科郑元张雷李明艳《智能计算机与应用》2021,11(6):109-116

本论文主要研究利用语言预训练模型和深度学习,来进行文本序列到指令序列的翻译.在文本序列到指令序列翻译的领域内,优势模型按结构划分主要分为2类,一种是端到端模型,另外一种是在编码器和解码器中间引入中间逻辑表示层.与以往的方法不同,本文提出了名为混合排序填充网络的新模型.该模型将问题与一列单独组合,利用语言预训练模型获取编码,然后根据选择的模板,划分并填充不同的子任务,生成完整的指令序列.这种方法很好地利用了语言预训练模型的特点,避免引入专门的中间语义表示层或者解码器,减少了模型复杂度.在自构建的文本到指令序列数据集上取得了很好的翻译效果,翻译结果的逻辑准确率可达到89.1％. 相似文献

5.

基于端到端的多语种语音识别研究

下载免费PDF全文

胡文轩王秋林李松洪青阳李琳《信号处理》2021,37(10):1816-1824

端到端语音识别模型无需发音词典进行训练,可以大幅降低开发新语种语音识别系统的负担。本文利用端到端模型的这一优势,建立了一种语种无关的端到端多语种语音识别系统。该模型使用基于字符的建模方法进行训练,同时构建多语种输出符号集,使其包括所有目标语言中出现的字符。模型训练生成单一模型,其网络参数为所有语种共享。在OLR竞赛提供的10个语种数据集上,相较于单语种语音识别系统,本文提出的多语种语音识别系统在所有语言上的表现都更加优秀。相似文献

6.

基于生成对抗网络联合训练的语音分离方法

下载免费PDF全文

王涛全海燕《信号处理》2020,36(6):1013-1019

基于深度神经网络的语音分离方法大都在频域上进行训练，并且在训练过程中往往只关注目标语音特征，不考虑干扰语音特征。为此，提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入，保留了信号时延导致的相位信息。同时，利用对抗机制，使生成模型和判别模型分别训练目标语音和干扰语音的特征，提高了语音分离的有效性。实验中，采用Aishell数据集进行对比测试。结果表明，本文所提方法在三种信噪比条件下都有良好的分离效果，能更好地恢复出目标语音中的高频频段信息。相似文献

7.

基于空间特征的生成对抗网络数据生成方法

孙磊杨宇毛秀青汪小芹李佳欣《电子与信息学报》2023,(6):1959-1969

传统的生成对抗网络(GAN)在特征图较大的情况下，忽略了原始特征的表示和结构信息，并且生成图像的像素之间缺乏远距离相关性，从而导致生成的图像质量较低。为了进一步提高生成图像的质量，该文提出一种基于空间特征的生成对抗网络数据生成方法(SF-GAN)。该方法首先将空间金字塔网络加入生成器和判别器，来更好地捕捉图像的边缘等重要的描述信息；然后将生成器和判别器进行特征加强，来建模像素之间的远距离相关性。使用CelebA,SVHN,CIFAR-10等小规模数据集进行实验，通过定性和盗梦空间得分(IS)、弗雷歇距离(FID)定量评估证明了所提方法相比梯度惩罚生成对抗网络(WGAN-GP)、自注意力生成对抗网络(SAGAN)能使生成的图像具有更高的质量。并且通过实验证明了该方法生成的数据能够进一步提升分类模型的训练效果。相似文献

8.

基于多尺寸卷积与残差单元的快速收敛 GAN 胸部 X 射线图像数据增强

下载免费PDF全文

于贺余南南《信号处理》2019,35(12):2045-2054

针对深度学习中数据增强的方法, 改进生成式对抗网络 (GAN,Generative adversarial networks)模型,形成一种快速收敛生成式对抗网络,能够克服 GAN 训练过程不稳定、收敛速度缓慢容易发生模式崩溃等问题。采用在判别器中使用多尺寸卷积,加强判别器的特征提取能力;在生成器中添加残差单元的方法,使得生成器可以快速拟合真实数据的分布;同时对判别器进行预训练的策略,有利于提高生成器前期训练稳定性和加快训练过程。运用 CIFAR-10 标准数据集进行实验,与几种基于 GAN 的模型对比,证实本文的改进算法效果较好,图像质量和多样性更优。利用本文提出的改进算法用于美国 NIH 临床数据库的胸部 X 射线数据集,生成扩充样本,经图灵测试证实了算法的有效性。相似文献

9.

改进生成式对抗网络的图像数据集增强算法

郭伟庞晨《电讯技术》2022,62(3):281-287

针对现有深度学习中图像数据集缺乏的问题,提出了一种基于深度卷积生成式对抗网络(Deep Convolutional Generative Adversarial Network, DCGAN)的图像数据集增强算法。该算法对DCGAN网络进行改进,首先在不过多增加计算量的前提下改进现有的激活函数,增强生成特征的丰富性与多样性;然后通过引入相对判别器有效缓解模式坍塌现象,从而提升模型稳定性;最后在现有生成器结构中引入残差块,获得相对高分辨率的生成图像。实验结果表明,将所提方法应用在MNIST、SAR和医学血细胞数据集上,图像数据增强效果与未改进的DCGAN网络相比显著提升。相似文献

10.

融合语言模型的端到端中文语音识别算法 总被引：1，自引：0，他引：1

吕坤儒吴春国梁艳春袁宇平任智敏周柚时小虎《电子学报》2021,49(11):2177-2185

为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21％,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43％.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的Deep?Speech2模型相比字错误率降低了28％. 相似文献

11.

基于自注意力特征融合的半监督生成对抗网络用于SAR目标识别

下载免费PDF全文

应自炉王发官翟懿奎王文琪《信号处理》2022,38(2):258-267

与具有大量标注数据的光学图像相比,合成孔径雷达(Synthetic Aperture Radar,SAR)图像缺乏足够的标记样本,限制了监督学习的SAR目标识别算法的性能.而无监督识别方法又难以满足实际需求,因此本文提出了基于自注意力特征融合的半监督生成对抗网路.首先,在构建生成器和判别器时引入自注意力层,克服卷积算子... 相似文献

12.

基于多流融合生成对抗网络的遥感图像融合方法

雷大江张策李智星吴渝《电子与信息学报》2020,42(8):1942-1949

由于强大的高质量图像生成能力,生成对抗网络在图像融合和图像超分辨率等计算机视觉的研究中得到了广泛关注。目前基于生成对抗网络的遥感图像融合方法只使用网络学习图像之间的映射,缺乏对遥感图像中特有的全锐化领域知识的应用。该文提出一种融入全色图空间结构信息的优化生成对抗网络遥感图像融合方法。通过梯度算子提取全色图空间结构信息,将提取的特征同时加入判别器和具有多流融合架构的生成器,设计相应的优化目标和融合规则,从而提高融合图像的质量。结合WorldView-3卫星获取的图像进行实验,结果表明,所提方法能够生成高质量的融合图像,在主观视觉和客观评价指标上都优于大多先进的遥感图像融合方法。相似文献

13.

基于生成对抗网络的无监督域适应分类模型 总被引：1，自引：0，他引：1

下载免费PDF全文

王格格郭涛余游苏菡《电子学报》2020,48(6):1190-1197

生成适应模型利用生成对抗网络实现模型结构,并在领域适应学习上取得了突破.但其部分网络结构缺少信息交互,且仅使用对抗学习不足以完全减小域间距离,从而使分类精度受到影响.为此,提出一种基于生成对抗网络的无监督域适应分类模型（Unsupervised Domain Adaptation classification model based on GAN,UDAG）.该模型通过联合使用生成对抗网络和多核最大均值差异度量准则优化域间差异,并充分利用无监督对抗训练及监督分类训练之间的信息传递以学习源域分布和目标域分布之间的共享特征.通过在四种域适应情况下的实验结果表明,UDAG模型学习到更优的共享特征嵌入并实现了域适应图像分类,且分类精度有明显提高. 相似文献

14.

基于对抗生成网络的纹理合成方法

下载免费PDF全文

余思泉韩志唐延东吴成东《红外与激光工程》2018,47(2):203005-0203005(6)

纹理合成是计算机图形学、计算机视觉和图像处理领域的研究热点之一。传统的纹理合成方法往往通过提取有效的特征样式或统计量并在该特征信息的约束下生成随机图像来实现。对抗生成网络作为一种较新的深度网络形式,通过生成器和判别器的对抗训练能够随机生成与观测数据具有相同分布的新数据。鉴于此,提出了一种基于对抗生成网络的纹理合成方法。该算法的优点是不需要经过多次迭代就能够生成更真实纹理图像,且生成图像在视觉上与观测纹理图像一致的同时具有一定随机性。一系列针对随机纹理和结构性纹理的合成实验验证了该算法的有效性。相似文献

15.

DVUGAN:基于STDCT的DDSP集成变分U-Net的语音增强

下载免费PDF全文

徐峰李平《信号处理》2022,38(3):582-589

本文提出基于生成对抗网络设计的DVUGAN模型,用于语音增强任务.该模型工作在变换域上,输入采用STDCT特征,该特征能隐式表达相位,可在实值网络中学习,避免了复频域复杂网络或处理,利用相位的同时降低模型复杂度;生成器采用变分U-Net编解码器,集成DDSP组件利用强归纳偏置显著提升自动编码器性能,变分概率瓶颈改善脉冲... 相似文献

16.

融合注意力机制的高分辨人脸识别图像重建

下载免费PDF全文

胡正平潘佩云崔紫微赵梦瑶毕帅《信号处理》2022,38(1):118-127

针对由于人脸姿势、光照不均、拍摄环境、拍摄设备等内外部因素造成图像分辨率低的问题,提出融合注意力机制的高分辨人脸识别图像重建模型.首先以低分辨率人脸图像对作为两个生成器输入,通过残差块和注意力模块堆叠网络提取人脸特征信息,进而生成高分辨率人脸图像.训练中使用一个鉴别器来监督两个生成器的训练过程.利用Adam算法对鉴别器... 相似文献

17.

基于FFTNet-GAN的音频超分辨率方法研究

下载免费PDF全文

徐峰李平《信号处理》2021,37(1):59-65

本文提出了一种基于FFTNet的生成对抗网络模型来实现极端音频超分辨率任务。生成器采用并行、非因果、Non-local运算的三路分裂求和FFTNet，此浅层模型速度快，精度高，能更好的提取时域音频的长期相关结构，以期望分辨率提取特征，提升重建性能；设计匹配性能的判别器，稳定适应生成对抗架构；融合基于频域的感知损失，与样本空间损失固定加权减少重建失真和提高感知质量。从主客观进行系统评价，本文方法都优于基线模型，从2x/4x/6x倍还原效果来看，模型具有极端的高频重建能力，有助于提高音频信号的时间分辨率。相似文献