首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
李燕萍  曹盼  左宇涛  张燕  钱博 《自动化学报》2022,48(7):1824-1833
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.  相似文献   

2.
图像转换是现今科学研究的一个热点,提出一种基于条件生成网络的图像转换算法.这种算法利用对抗生成网络的特点将图像转换变为图像生成的途径.通过对大量图像的不同位置、不同亮度、色彩以及不同深度的测试得出结果,表明提出的算法能够得到非常理想的结果.  相似文献   

3.
邬龙  黎塔  王丽  颜永红 《软件学报》2019,30(S2):25-34
为了进一步利用近场语音数据来提高远场语音识别的性能,提出一种基于知识蒸馏和生成对抗网络相结合的远场语音识别算法.该方法引入多任务学习框架,在进行声学建模的同时对远场语音特征进行增强.为了提高声学建模能力,使用近场语音的声学模型(老师模型)来指导远场语音的声学模型(学生模型)进行训练.通过最小化相对熵使得学生模型的后验概率分布逼近老师模型.为了提升特征增强的效果,加入鉴别网络来进行对抗训练,从而使得最终增强后的特征分布更逼近近场特征.AMI数据集上的实验结果表明,该算法的平均词错误率(WER)与基线相比在单通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降5.6%和4.7%.在多通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降6.2%和4.1%.TIMIT数据集上的实验结果表明,该算法获得了相对7.2%的平均词错误率下降.为了更好地展示生成对抗网络对语音增强的作用,对增强后的特征进行了可视化分析,进一步验证了该方法的有效性.  相似文献   

4.
雾霾常会影响获取图像的质量,单幅图像去雾是一个具有挑战性的不适定问题.针对传统的去雾方法存在去雾结果颜色失真、适用范围局限等问题,提出一种基于深度网络的去雾算法——生成对抗映射网络的多层感知去雾算法.在训练阶段中,利用生成对抗映射网络里判别网络与生成网络间对抗式训练机制,保证生成网络中参数的最优解;在测试还原过程中,先提取有雾图像中雾气相关特征,并利用训练得到的生成网络对提取特征进行多层感知映射,进而得到反映雾气深度信息的透视率,最终运用得到的透视率实现了图像去雾.实验结果表明,与同类算法相比,该算法能较好地还原出场景中目标的真实色彩,并抑制部分噪声,去雾效果明显.  相似文献   

5.
提出了一种基于条件生成对抗网络的情感语音生成技术,在引入情感条件的基础上,通过学习语音库中的情感信息,能够自主生成全新的富有指定情感的语音.生成式对抗网络是由一个判别网络和一个生成器组成.使用TensorFlow作为学习框架,利用条件GAN模型对大量情感语音进行训练,利用语音生成网络G和生成网络D构成动态"博弈过程",...  相似文献   

6.
针对语音去噪问题,提出一种基于循环生成对抗网络(CycleGAN)的方法来对声音场景中的语音进行去噪.该方法把CycleGAN的网络模型与不同领域间的语音转换技术进行结合与优化,通过提取语音频谱包络特征,对语音进行编码与解码的处理,旨在用先进的生成技术实现语音端到端的去噪,从而简化语音去噪过程中带来的高阶差异问题,同时...  相似文献   

7.
近年来深度哈希技术被广泛研究,可应用于大规模图像检索且取得了良好的性能,然而其安全性问题却相对被忽视.为此,本文提出了一种针对深度检索哈希的无目标攻击算法,可用于深度检索哈希的鲁棒性评估和优化设计.在该算法中我们构建了一个用于获得无目标攻击对抗样本的生成对抗网络模型UntargetedGAN.模型训练过程中,首先利用原型网络(PrototypeNet)将图像标签转换为原型网络编码,之后结合原型网络编码、解码器和鉴别器进行联合训练得到期望的UntargetedGAN模型;在测试阶段输入查询图像及其标签即可快速生成对抗样本.实验结果表明,UntargetedGAN生成的对抗样本可有效实现无目标攻击,且与现有的无目标攻击算法相比在攻击性能和对抗样本生成效率方面有显著提升.  相似文献   

8.
雷蕾  郭东恩  靳峰 《计算机工程》2021,47(1):230-238
基于生成对抗网络的图像修复算法在修复大尺寸缺失图像时,存在图像失真较多与判别网络性能不可控等问题,基于谱归一化条件生成对抗网络,提出一种新的图像修复算法。引入谱归一化来约束判别网络的判别性能,间接提高修复网络的修复能力,并根据控制判别网络性能对谱归一化进行理论分析。通过类别信息约束特征生成,保证修复图像的内容不变性,引入扩展卷积算子对待修复图像进行像素级操作,解决修复图像缺乏局部一致性的问题。在此基础上,运用PSNR、SSIM等图像评价方法及分片Wasserstein距离、Inception分数、流形距离度量、GAN-train和GAN-test等流形结构相似度评价指标对修复图像进行综合评价。实验结果表明,与CE、GL等算法相比,该算法获得的修复图像在主观感受和客观评价指标上均有明显提高。  相似文献   

9.
提出了一种基于粒子群算法PSO优化广义回归神经网络GRNN模型的语音转换方法。首先,该方法利用训练语音的声道和激励源的个性化特征参数分别训练两个GRNN,得到GRNN的结构参数;然后,利用PSO对GRNN的结构参数进行优化,减少人为因素对转换结果的影响;最后,对语音的韵律特征、基音轮廓和能量分别进行了线性转换,使得转换后的语音包含更多源语音的个性化特征信息。主客观实验结果表明:与径向基神经网络RBF和GRNN相比,使用本文提出的转换模型获得的转换语音的自然度和似然度都得到了很大的提升,谱失真率明显降低并且更接近于目标语音。  相似文献   

10.
基于生成对抗网络的雾霾场景图像转换算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于生成对抗网络的雾霾场景图像转换算法.生成对抗网络GAN作为无监督学习的方法,无法实现图像像素与像素之间映射,即生成图像不可控.因此,基于模型的加雾算法存在参数不确定性和应用场景局限性,本文提出了一种新方法的新应用,利用生成对抗网络实现图像转换.该方法基于生成对抗网络GAN模型,改进了GAN的生成器和判别器,进行有监督学习,以训练雾霾图像生成像素与像素之间的映射关系,实现无雾图像与有雾图像之间的转换.以图像加雾为例,本文分别设计了生成网络和判决网络,生成网络用于合成有雾图像,判决网络用于辨别合成的雾霾图像的真伪.考虑到雾霾场景图像转换的对应效果,设计了一种快捷链接沙漏形生成器网络结构,采用无雾图像作为生成网络输入,并输出合成后的有雾霾图像;具体来看,将生成网络分成编码和解码两部分,并通过相加对应间隔的卷积层来保留图像的底层纹理信息.为了更好地检验合成雾霾图像的真实程度,设计了漏斗形全域卷积判决器网络,将合成图像和目标图像分别通过判决器辨别真伪,采用全域卷积,利用神经网络进行多层下采样,最终实现分类判决,辨别图像风格.此外,本文提出了一种新的网络损失函数,通过计算GAN损失和绝对值损失之和,以训练得到更为优秀的图像转换结果.GAN损失函数的作用是使生成对抗网络GAN模型训练更加准确,而雾霾图像合成算法实际上是一个回归问题而非分类问题,生成器的作用不仅是训练判决器更加灵敏,更重要的是要生成与目标图像相似的图像.因此利用优化回归问题的绝对值损失函数,作用是为了准确学习像素间的映射关系,避免出现偏差和失真.最后本文对多类不同图像进行图像的雾霾场景转换并进行评估,分别测试该算法的图像加雾和去雾效果,并与其他算法进行对比测试.对于加雾效果,在合成场景、虚拟场景下,与软件合成效果进行对比,本文算法效果明显比软件合成效果好,不会出现色彩失真;在真实场景下,本文算法与真实拍摄的雾霾天气进行对比,结果十分相近;并且与其他GAN图像转换算法进行对比,本文算法具有明显的优势.同样本文算法在去雾效果上优势也十分明显.结果表明,本文所提基于生成对抗网络的雾霾场景图像转换算法,在主观效果和客观指标上均具有明显优势.  相似文献   

11.
近年来,生成对抗网络在约束图像生成方面表现出了较好的潜力,使其适用于图像超分辨率重建。针对基于卷积神经网络的图像超分辨率重建算法存在的特征信息利用率低的问题,基于生成对抗网络框架,提出了残差密集生成对抗网络的超分辨率重建算法。该算法定义生成器网络、判别器网络,通过构建残差密集网络作为生成器网络及PatchGAN作为判别器网络,以解决基于卷积神经网络的超分辨率算法中特征信息利用率低以及生成对抗网络收敛慢的问题。该重建算法在Set5等标准数据集上与主流的超分辨率重建算法进行对比,实验表明,该算法能够有效地提高特征信息利用率,较好地恢复低分辨率图像的细节信息,提高图像重建的质量。  相似文献   

12.
传统灰度图像着色方法存在颜色失真、效果不佳等问题,已逐渐被深度学习方法取代。目前基于深度学习的人像着色方法主要存在复杂背景下误着色的问题。针对上述问题,提出了联合一致循环生成对抗网络的人像着色方法。该方法在循环生成对抗网络的基础上,采用联合的一致性损失训练模型;生成网络采用U型网络结构(UNet)进行改进,以提高生成图像信息的完整性;判别网络中引入多特征融合的特征提取方式,增强特征对图像的细节表达。最后通过在自建的CASIA-PlusColors高质量人像数据集中的对比实验,验证了该方法对复杂背景中的人像着色有着更好的效果。  相似文献   

13.
针对现有卷积神经网络图像超分辨率算法容易出现过拟合、损失函数的收敛性不足等问题,结合超分辨率算法和生成式对抗网络(GAN)理论,设计一种基于生成式对抗网络的超分辨率算法PESRGAN用于恢复四倍下采样的图像。首先使用残差密集块(RDB)作为基本结构单元,有效避免了过拟合问题;其次使用双层特征损失并使用渗透指数(PI)作为损失的权值,更好地去学习低分辨率到高分辨率图像之间的映射关系;同时使用VGG19作为判别网络高分辨率图像进行分类;最后使用经典数据集,将PESRGAN算法与双三次插值(Bicubic)、SRGAN、ESRGAN算法在客观参数和主观视觉效果进行对比。实验结果表明:在经典数据集上,PESRGAN的平均峰值信噪比(PSNR)达到25.4 dB、平均结构相似性(SSIM)达到0.73,平均渗透指数(PI)达到1.15,在客观参数和主观评价上均优于其他算法,证明了PESRGAN有良好的超分辨率重建的效果。  相似文献   

14.
高媛  刘志  秦品乐  王丽芳 《计算机应用》2018,38(9):2689-2695
针对医学影像超分辨率重建过程中细节丢失导致的模糊问题,提出了一种基于深度残差生成对抗网络(GAN)的医学影像超分辨率算法。首先,算法包括生成器网络和判别器网络,生成器网络生成高分辨率图像,判别器网络辨别图像真伪。然后,通过设计生成器网络的上采样采用缩放卷积来削弱棋盘效应,并去掉标准残差块中的批量规范化层以优化网络;进一步增加判别器网络中特征图数量以加深网络等方面提高网络性能。最后,用生成损失和判别损失来不断优化网络,指导生成高质量的图像。实验结果表明,对比双线性内插、最近邻插值、双三次插值法、基于深度递归神经网络、基于生成对抗网络的超分辨率方法(SRGAN),所提算法重建出了纹理更丰富、视觉更逼真的图像。相比SRGAN方法,所提算法在峰值信噪比(PSNR)和结构相似度(SSIM)上有0.21 dB和0.32%的提升。所提算法为医学影像超分辨率的理论研究提供了深度残差生成对抗网络的方法,在其实际应用中可靠、有效。  相似文献   

15.
马宾  韩作伟  徐健  王春鹏  李健  王玉立 《软件学报》2023,34(7):3385-3407
人工智能的发展为信息隐藏技术带来越来越多的挑战,提高现有隐写方法的安全性迫在眉睫.为提高图像的信息隐藏能力,提出一种基于U-Net结构的生成式多重对抗隐写算法.所提算法通过生成对抗网络与隐写分析器优化网络、隐写分析对抗网络间的多重对抗训练,构建生成式多重对抗隐写网络模型,生成适合信息隐写的载体图像,提高隐写图像抗隐写分析能力;同时,针对现有生成对抗网络只能生成随机图像,且图像质量不高的问题,设计基于U-Net结构的生成式网络模型,将参考图像的细节信息传递到生成载体图像中,可控地生成高质量目标载体图像,增强信息隐藏能力;其次,采用图像判别损失、均方误差(MSE)损失和隐写分析损失动态加权组合作为网络迭代优化总损失,保障生成式多重对抗隐写网络快速稳定收敛.实验表明,基于U-Net结构的生成式多重对抗隐写算法生成的载体图像PSNR最高可达到48.60 dB,隐写分析器对生成载体图像及其隐写图像的判别率为50.02%,所提算法能够生成适合信息嵌入的高质量载体图像,保障隐写网络快速稳定收敛,提高了图像隐写安全性,可以有效抵御当前优秀的隐写分析算法的检测.  相似文献   

16.
基于遗传径向基神经网络的声音转换   总被引:4,自引:1,他引:4  
声音转换技术可以将一个人的语音模式转换为与其特性不同的另一个人语音模式,使转换语音保持源说话人原有语音信息内容不变,而具有目标说话人的声音特点。本文研究了由遗传算法训练的RBF神经网络捕获说话人的语音频谱包络映射关系,以实现不同说话人之间声音特性的转换。实验对六个普通话单元音音素的转换语音质量分别作了客观和主观评估,结果表明用神经网络方法可以获得所期望的转换语音性能。实验结果还说明,与K-均值法相比,用遗传算法训练神经网络可以增强网络的全局寻优能力,使转换语音与目标语音的平均频谱失真距离减小约10%。  相似文献   

17.
目的 由MRI(magnetic resonance imaging)得到的影像具有分辨率高、软组织对比好等优点,使得医生能更精确地获得需要的信息,精确的前列腺MRI分割是计算机辅助检测和诊断算法的必要预处理阶段。因此临床上需要一种自动或半自动的前列腺分割算法,为各种各样的临床应用提供具有鲁棒性、高质量的结果。提出一种多尺度判别条件生成对抗网络对前列腺MRI图像进行自动分割以满足临床实践的需求。方法 提出的分割方法是基于条件生成对抗网络,由生成器和判别器两部分组成。生成器由类似U-Net的卷积神经网络组成,根据输入的MRI生成前列腺区域的掩膜;判别器是一个多尺度判别器,同一网络结构,输入图像尺寸不同的两个判别器。为了训练稳定,本文方法使用了特征匹配损失。在网络训练过程中使用对抗训练机制迭代地优化生成器和判别器,直至判别器和生成器同时收敛为止。训练好的生成器即可完成前列腺MRI分割。结果 实验数据来自PROMISE12前列腺分割比赛和安徽医科大学第一附属医院,以Dice相似性系数和Hausdorff距离作为评价指标,本文算法的Dice相似性系数为88.9%,Hausdorff距离为5.3 mm,与U-Net、DSCNN(deeply-supervised convolutional neured network)等方法相比,本文算法分割更准确,鲁棒性更高。在测试阶段,每幅图像仅需不到1 s的时间即可完成分割,超出了专门医生的分割速度。结论 提出了一种多尺度判别条件生成对抗网络来分割前列腺,从定量和定性分析可以看出本文算法的有效性,能够准确地对前列腺进行分割,达到了实时分割要求,符合临床诊断和治疗需求。  相似文献   

18.
提升低信噪比下的分离语音质量是语音分离技术研究的重点,而大多数语音分离方法在低信噪比下仍只对目标说话人的语音进行特征训练.针对目前方法的不足,提出了一种基于联合训练生成对抗网络GAN的混合语音分离方法.为避免复杂的声学特征提取,生成模型采用全卷积神经网络直接提取混合语音时域波形的高维特征,判别模型通过构建二分类卷积神经...  相似文献   

19.
基于条件深度卷积生成对抗网络的图像识别方法   总被引:7,自引:0,他引:7  
生成对抗网络(Generative adversarial networks,GAN)是目前热门的生成式模型.深度卷积生成对抗网络(Deep convolutional GAN,DCGAN)在传统生成对抗网络的基础上,引入卷积神经网络(Convolutional neural networks,CNN)进行无监督训练;条件生成对抗网络(Conditional GAN,CGAN)在GAN的基础上加上条件扩展为条件模型.结合深度卷积生成对抗网络和条件生成对抗网络的优点,建立条件深度卷积生成对抗网络模型(Conditional-DCGAN,C-DCGAN),利用卷积神经网络强大的特征提取能力,在此基础上加以条件辅助生成样本,将此结构再进行优化改进并用于图像识别中,实验结果表明,该方法能有效提高图像的识别准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号