首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 500 毫秒
1.
王锦阳  华光  黄双 《信号处理》2022,38(9):1975-1987
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。  相似文献   

2.
宋鹏  王浩  赵力 《信号处理》2013,29(10):1294-1299
针对非对称语音库情况下的语音转换,提出了一种有效的基于模型自适应的语音转换方法。首先,通过最大后验概率(Maximum A Posteriori,MAP)方法从背景模型分别自适应训练得到源说话人和目标说话人的模型;然后,通过说话人模型中的均值向量训练得到频谱特征的转换函数;并进一步与传统的INCA转换方法相结合,提出了基于模型自适应的INCA语音转换方法,有效实现了源说话人频谱特征向目标说话人频谱特征的转换。通过客观测试和主观测听实验对提出的方法进行评价,实验结果表明,与INCA语音转换方法相比,本文提出的方法可以取得更低的倒谱失真、更高的语音感知质量和目标倾向度;同时更接近传统基于对称语音库的高斯混合模型(Gaussian Mixture Model,GMM)的语音转换方法的效果。   相似文献   

3.
声音转换技术的研究与进展   总被引:20,自引:0,他引:20       下载免费PDF全文
左国玉  刘文举  阮晓钢 《电子学报》2004,32(7):1165-1172
声音转换是一项改变说话人声音特征的技术,可以将一人的语音模式转换为与其特性不同的另一人语音模式.声音转换算法的目标是确定一个什么样的模式转换规则,使转换语音保持第一个说话人原有语音信息内容不变,而具有第二个说话人的声音特点.本文介绍了当前声音转换技术领域的研究状态,主要分析现有声音转换技术中各种转换算法的实现原理,描述声音转换系统性能的各种评估方法,最后给出了对声音转换技术的简要评述和展望.  相似文献   

4.
分组语音技术的实现与应用   总被引:2,自引:0,他引:2  
随着与互联网的接触愈来愈多,人们会尝试各种各样的应用,其中一个非常有前途的应用就是分组语音技术,分组语音技术是指语音信号转化为一定长度的数字化事音包,采用存府转发的方法以包的形式进行交换和传输技术,文章介绍了分组语音技术的基本概念,包括原理,结构和性能,以及分组语音技术的一些具体应用,文章强调,分组语音技术不仅仅为降低成本而用于IP电话,结合计算机处理和互联网技术的优势实现各种增值业务才它真正价值  相似文献   

5.
语音转换及相关技术综述   总被引:20,自引:0,他引:20  
给出了语音转换的定义,介绍了语音转换的用途,分析了表征说话人个性特征的语音参数,研究了语音转换的系统结构,对语音转换的实现主要从频谱包络和韵律两个方面的转换进行了研究讨论,分析并介绍了语音转换现在的发展水平及存在的问题。  相似文献   

6.
语音识别说话人自适应研究现状及发展趋势   总被引:12,自引:0,他引:12  
说话人自适应是提高非特定人语音识别系统识别性能的有效手段.本文介绍了说话人自适应研究的现状,包括自适应的不同方式和不同算法,并详细介绍了目前应用最为广泛的MLLR算法和MAP算法.本文还给出了对说话人自适应研究发展趋势的预测.  相似文献   

7.
马勇  鲍长春 《信号处理》2013,29(9):1190-1199
说话人分割聚类是近几年新兴起的语音信号处理研究方向,它主要研究如何确定连续语流中多说话人起止时间的位置,并标出每个语音段对应的说话人。这项研究对自动语音识别、多说话人识别和基于内容的音频分析等都具有重要的意义。根据说话人分割和聚类实现过程不同,本文从异步策略和同步策略的角度回顾了十年来国内外研究的主流算法、技术和代表系统,对比了不同代表系统在近几年NIST富信息转写评测的结果,最后讨论了目前还存在的问题,并对未来的发展进行了展望。   相似文献   

8.
吴则诚  飞龙  张晖  王海波 《信号处理》2021,37(10):1825-1834
语音转换技术在保持语义内容不变的前提下将源说话人的语音音色转换为目标说话人。目前,蒙古语语音转换面临语料匮乏、蒙古语字词在发音上韵律变化丰富等问题。针对这些问题,本文提出一种基于细粒度韵律建模和条件CycleGAN的非平行蒙古语语音转换方法。该方法首先使用连续小波变换提取细粒度的语音韵律特征,然后向CycleGAN中加入说话人向量构建条件CycleGAN,最后使用条件CycleGAN得到源说话人和目标说话人之间稳定的韵律转换。实验结果表明,该方法与传统CycleGAN语音转换方法相比能够有效提升蒙古语语音转换效果,在语音自然度和说话人相似度的MOS评分上分别提升了0.1和0.2。   相似文献   

9.
孙卓  岳振军 《电声技术》2007,31(6):37-40
汉语语音变换技术的目的是将汉语语音中源说话人的语音特征转换为目标说话人语音特征。提出的适用于汉语说话人的变换算法分为3个部分:前两部分用高斯混合模型实现了语音的谱包络(线性预测编码)及其激励(残差)的转换;第三部分采用支持向量回归算法实现语音的韵律变换规则建模,结合汉语语音特点利用基音同步叠加算法实现语音的超音段特征调整。与现有的语音变换算法进行比较,算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,是一种有效的汉语语音变换算法。  相似文献   

10.
韦国刚  周萍 《电子世界》2014,(6):61-61,99
模仿者蓄意模仿说话人的语音,当相似度较高时,说话人识别系统就有可能被模仿者欺骗。语音特征参数作为说话人识别系统的关键组成部分,直接影响系统的性能。Mel系数是语音识别领域最成熟的特征参数之一,但是,MFCC特征参数在语音识别中对中、高频段的识别精度较低。为了解决上述问题,融合Mid-MFCC和IMFCC,采用增减分量法,提出了MMI-MFCC特征参数。实验结果表明,新的MMI-MFCC特征参数比传统的MFCC特征参数更有效的区分模仿语音的相似度。  相似文献   

11.
近年来,得益于深度生成模型的发展,人脸的操控技术取得了巨大突破,以DeepFake为代表的人脸视频深度伪造技术在互联网快速流行,受到了学术界和工业界的广泛重视。这种深度伪造技术通过交换原始人脸和目标人脸的身份信息或编辑目标人脸的属性信息来合成虚假的人脸视频。人脸深度伪造技术激发了很多相关的娱乐应用,如使用面部替换技术将使用者的人脸替换到某段电影片段中,或使用表情重演技术来驱动某个著名人物的静态肖像等。但当前人脸深度伪造技术仍处于快速发展阶段,其生成的真实感和自然度仍有待进一步提升。另一方面,这类人脸深度伪造技术也很容易被不法分子恶意使用,用来制作色情电影、虚假新闻,甚至被用于政要人物来制造政治谣言等,这对国家安全与社会稳定都带来了极大的潜在威胁,因此伪造人脸视频的防御技术至关重要。为了降低深度伪造人脸视频所带来的负面影响,众多学者对伪造人脸视频的检测鉴别技术进行了深入研究,并从不同视角提出了一系列防御方法。然而由于数据集分布形式单一、评价标准不一致、主动性不足等问题,使得防御技术在走向实用的道路上仍有很长一段距离。事实上,人脸深度伪造与防御技术的研究仍旧处在发展期,其技术的内涵与外延正在快速的更新与迭代。本综述将对迄今为止的主要研究工作进行科学系统的总结与归纳,并对现有技术的局限性做简要分析。最后,本文将探讨人脸深度伪造与检测技术的潜在挑战与发展方向,为领域内未来的研究工作提供借鉴。   相似文献   

12.
刘贤刚  范博  郝春亮 《通信技术》2020,(5):1133-1137
近年来,Deepfake等假脸技术的产生颠覆了人们对人脸信息真实性和安全性的认知,引发广泛的社会担忧,检测假脸成为了学术界、产业界共同关注的热点问题。通过一种基于特征点对齐的假脸检测框架,可以有效对Deepfake技术产生的假脸进行判别。该框架制定了一套包括人脸检测、定点、对齐、特征提取、假脸识别等步骤的假脸检测流程,并通过引入特征点对齐保障假脸检测效果。在Deepfake检测挑战赛(DFDC)数据集上的试验表明,该框架适配4种当前主流骨干网络算法都能获得较好的检测结果;在FaceForensics++数据集上的试验表明,该框架适配ResNet50针对几种不同方式生成的假脸图像都可以取得良好效果。  相似文献   

13.
杨忠良  何亮  陈程  廖国睿  黄永峰 《信号处理》2021,37(12):2390-2411
近年来,人们越来越依赖于公共互联网平台进行信息的自由发布和获取。与此同时,网络空间虚假言论的泛滥也日益严峻,给人们的日常生活和社会治理带来了艰巨的挑战。因此,网络言论取证成为了一个亟需解决的难题。近几年,随着深度神经网络技术的发展,同时给网络虚假言论生成和取证技术带来了新的发展活力,使得这两种对抗技术都得到了快速发展。本文主要关注网络言论的取证技术,分别从文本和语音两方面综述了近些年网络言论取证相关的研究成果。在虚假文本取证方面,本文分别从文本内容真实性校验、文本语义特征分析以及传播模式分析这三个角度综述相关研究成果。在虚假语音取证方面,本文首先介绍了当前语音合成、语音转换延伸等技术的发展现状,然后综述了语音鉴伪和取证技术的最新研究工作。我们希望本文的综述能帮助相关领域研究人员更好地了解网络言论取证领域最新的研究进展,以便研究出更先进的技术并推动该领域的持续进步。   相似文献   

14.
谭舜泉  黎思力  陈保营  李斌 《信号处理》2021,37(12):2235-2250
近年来,随着机器学习技术,特别是深度学习技术的飞速发展,使得一般人也能够生成非常逼真的高质量造假图像和视频。这给社会和个人带来了极大的风险,也引起了世界各国相关部门以及学术界的高度重视。针对图像和视频的篡改技术和取证技术是相互对抗相互促进的矛盾双方。机器学习技术的飞速发展,同样地也触发了图像/视频取证技术的跨越式演化。本文对近年来,特别是过去三年面向图像/视频取证的机器学习技术的飞速发展现状进行了综述,展示了基于传统人工构造特征以及端到端的图像视频取证机器学习方法,并探讨了不同检测技术的优缺点,重点对Deepfake换脸视频的取证技术以及基于深度学习的取证与反取证的对抗进行了介绍。对现有的科研工作进行了科学的归类。最后对其未来的发展趋势进行了展望,旨在为后续学者的研究进一步推动图像/视频取证的机器学习技术提供指导。   相似文献   

15.
语声转换通过改变语音信号的声学特征参数来调整语音的个性特征,从而使得转换后的源说话人语音听起来就像是目标说话人的声音一样。系统地介绍了当前语声转换技术的发展状况,在描述语声转换技术的应用场景和系统框架的基础上,着重阐述了系统的转换模块,即声道特性的转换和韵律转换,特别是重点介绍了声道特性的转换算法。简要地介绍了系统性能的测试方法,最后对全文进行了总结,并针对当前语声转换技术还存在的一些问题,对未来的发展进行了展望。  相似文献   

16.
随着深度学习技术的快速发展,利用深度神经网络模型伪造出的深度假脸(deepfake)视频越来越逼真,假脸视频造成的威胁也越来越大。文献中已出现一些基于卷积神经网络的换脸视频检测算法,他们在库内获得较好的检测效果,但跨库检测性能急剧下降,存在泛化能力不足的问题。该文从假脸篡改的机制出发,将视频换脸视为特殊的拼接篡改问题,利用流行的神经分割网络首先预测篡改区域,得到预测掩膜概率图,去噪并二值化,然后根据换脸主要发生在人脸区域的前提,提出一种计算人脸交并比的新方法,并进一步根据换脸处理的先验知识改进人脸交并比的计算,将其作为篡改检测的分类准则。所提出方法分别在3个不同的基础分割网络上实现,并在TIMIT, FaceForensics++, FFW数据库上进行了实验,与文献中流行的同类方法相比,在保持库内检测的高准确率同时,跨库检测的平均错误率显著下降。在近期发布的合成质量较高的DFD数据库上也获得了很好的检测性能,充分证明了所提出方法的有效性和通用性。  相似文献   

17.
深度伪造技术是人工智能发展到一定阶段的产物,其高度的逼真性引发诸多争议。美国国会召开的深度伪造的听证会深入探讨了该技术对个人、社会和国家的潜在风险,同时从技术、法律、教育等角度提出相对的防范措施。整体而言,对深度伪造技术不能一概否决,在加强对影响国家安全、公共安全的虚假信息的监管和规制的同时,也要发挥深度伪造技术在教育、艺术、医疗等领域的积极作用。  相似文献   

18.
In recent years, to solve the problem of face spoofing, momentous work has been done in this field, but still, there is a need for establishing counter measures to the biometric spoofing attacks. Although trained and evaluated on different databases, impressive results have been achieved in existing face anti‐spoofing techniques, but biometric authentication is a very significant problem as imposters are using lots of reconstructed samples or fake synthetic material or structure that can be used for various attack purposes. For the first time, to the best of our knowledge, this paper explains the security for face anti‐spoofing detection using linear discriminant analysis and validates the results by calculating HTER and accuracy on different databases (i.e., REPLAY ATTACK and CASIA). The proposed model, that is, three‐tier face anti‐spoofing detection model (3T‐FASDM), is used for the detection of the fake biometric user and works well for real‐time applications. The proposed methods tested on a set of state‐of‐the‐art anti‐spoofing features for the face mode gives a very low degree of complexity as 26 general image quality measures are applied to differentiate among legitimate and imposter samples. The outcomes obtained from publically available data show that this technique has improved performance and accuracy by analyzing the HTER and machine learning classifiers that are helpful to differentiate among real and fake traits.  相似文献   

19.
全球导航卫星系统(Global Navigation Satellite System, GNSS)欺骗式干扰具有隐蔽性强、危害性大的特点,对GNSS造成了严重的安全威胁。介绍了生成式和转发式欺骗干扰的原理和关键技术,总结了现有的欺骗式干扰检测方法和抑制方法,并从成本、性能、复杂度、研究重点等方面对现有技术进行了详细分析。以性能和成本为指标,对比分析了现有干扰攻击、检测和抑制方法。最后,对未来欺骗式干扰防御研究值得关注的问题进行了展望,以期为后续研究提供思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号