首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
自动说话人验证(Automatic Speaker Verification,ASV)通过接收说话人的语音来提取说话人的语音特征,并在已经训练的模型上进行验证,最终识别输入语音的真伪,并判断说话人的身份。随着语音欺骗技术的发展,为保护ASV系统的安全性,需要提升反语音欺骗模型的性能。因此,文章提出基于深度学习的反语音欺骗模型。实验结果表明,该模型能够有效提高ASV系统的安全性。  相似文献   

2.
现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好,但对实际应用中的未知攻击类型检测效果显著降低。因此,结合最近提出的双路径Res2Net(DP-Res2Net),提出一种基于时域波形的半监督端到端虚假语音检测方法。首先,为了解决训练数据集和测试数据集两者数据分布差异较大的问题,采用半监督学习进行领域迁移;然后,对于特征工程,直接将时域采样点输入DP-Res2Net中,增加局部的多尺度信息,并充分利用音频片段之间的依赖性;最后,输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量,用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能,实验结果表明它的等错误率(EER)为19.97%,与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的,且具有更高的泛化能力。  相似文献   

3.
自动说话人验证(Automatic speaker verification,ASV)技术的发展正在深刻地影响和改变着当前的人机交互系统,ASV作为一些智能设备的语音核心功能,可以接受目标说话人的语音并准确识别出该说话人的身份。近年来,人工智能技术的快速进展推动了ASV系统实现跨越式发展。然而,随着人工神经网络和深度学习技术的发展,越来越多的研究者开始研究如何攻击ASV系统。如何通过对原始语音进行一系列处理实现对ASV系统的攻击,是近年来语音领域研究的一个热点问题。目前,对ASV系统的攻击方法大致可分为欺骗攻击(Spoofing attack)和对抗攻击(Adversarial attack)两大类。本文对两大类的典型方法和基本原理进行综述,梳理了目前一些攻击手段中存在的若干问题,揭示了ASV系统存在的安全隐患,对今后ASV系统安全性的发展做了简要的展望,并为未来进一步提高ASV系统的安全性和可靠性提供了参考。  相似文献   

4.
在语音欺骗检测中,高斯混合模型(Gaussian Mixture Model, GMM)独立地累计所有语音帧的分数,而忽略了每个高斯分量对最终分数的贡献.本文对每个高斯混合模型分量上的分数进行建模,并基于线性频率倒谱系数(Linear Frequency Cepstral Coefficients, LFCC)构建高斯概率特征(Gaussian Probability Features, GPF);结合能够捕捉语音帧的前后依赖关系的双向LSTM和具有强大分类能力的孪生网络,使用孪生双向LSTM(Siamese Bidirectional Long Short-Term Memory, SBi-LSTM)模型进行语音欺骗检测.SBi-LSTM模型进行语音欺骗检测时,首先在真实和欺骗语音数据集上训练得到两个GMM,然后利用GMM计算每条语音的GPF,最后对输入的GPF进行二分类.实验在ASVspoof 2019数据集上进行,实验结果表明SBi-LSTM模型明显优于GMM,逻辑访问场景下min t-DCF和EER分别比GMM的min t-DCF和EER降低了47.62%和48.35%,物理访...  相似文献   

5.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

6.
汉语文本-可视语音转换的研究   总被引:9,自引:1,他引:9  
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS)  相似文献   

7.
语音转换通常是指将一个人的声音个性化特征通过“修改变换”,使之听起来像另外一个人的声音,同时保持说话内容信息不变。近年来,随着信息处理和机器学习技术的快速发展,语音转换技术也得到了突飞猛进的进步。为此,在简要介绍语音转换基本概念的基础上,重点综述了近几年语音转换的典型模型和方法,分析了语音转换的关键技术,列举了语音转换技术的主要应用场景,梳理了目前语音转换中仍存在的若干技术问题,并展望了语音转换研究的发展方向。  相似文献   

8.
语音信号基音检测的现状及展望   总被引:17,自引:0,他引:17  
冯康  时慧琨 《微机发展》2004,14(3):95-98,101
基音检测是语音处理中的一个非常重要的问题,但由于影响基音检测的因素众多.使得基音周期的准确估计非常困难。文中阐述了短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等几种经典的基音检测方法.分析它们各自的优点及存在的不足,并在预处理.后处理、语音信号的产生模型、语音信号的个性特征、发音时的情感及力度等基音检测的各个环节上提出了一些看法,并就一些可能出现的突破口做了一些展望。  相似文献   

9.
针对目前一部分残障人士(如盲人等)面临的上网困难问题,本文通过语音识别和文本-语音转换两个部分的设计及运用,设计一个基于语音识别的盲人上网辅助系统。系统的语音识别部分,采用了线性预测(LPC)及矢量量化的距离(VQ)方法,过滤和识别人的语音信号;文本-语音转换部分,通过对每个动态打开的网页,采用文字转化成语音(text-to-speech,TTS)技术及语音合成平台完成语音合成,将其网页文本内容朗读出来,同时也可对用户进行语音提示。  相似文献   

10.
针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低频和高频截止频率,减少原始波建模参数数量;搭建残差网络模型作为后端分类器,改进激活函数并增加跳转连接模块以获得更好的泛化性能。实验数据集采用ASVspoof2019大赛官方数据集,实验结果表明,在逻辑攻击场景及物理攻击场景中,提出模型均相对基线系统具有更低的等错误率。  相似文献   

11.
唇读研究进展与展望   总被引:1,自引:0,他引:1  
陈小鼎  盛常冲  匡纲要  刘丽 《自动化学报》2020,46(11):2275-2301
唇读, 也称视觉语言识别, 旨在通过说话者嘴唇运动的视觉信息, 解码出其所说文本内容. 唇读是计算机视觉和模式识别领域的一个重要问题, 在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值. 近年来, 深度学习技术极大地推动了唇读研究进展. 本文首先阐述了唇读研究的内容和意义, 并深入剖析了唇读研究面临的难点与挑战; 然后介绍了目前唇读研究的现状与发展水平, 对近期主流唇读方法进行了梳理、归类和评述, 包括传统方法和近期的基于深度学习的方法; 最后, 探讨唇读研究潜在的问题和可能的研究方向. 以期引起大家对唇读问题的关注与兴趣, 并推动与此相关问题的研究进展.  相似文献   

12.
言语信息处理的进展   总被引:1,自引:0,他引:1  
该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。  相似文献   

13.
语音交互技术在实际的话音驱动应用中得到日益普及。然而,当声源距离传声器较远时,由于实际环境中混响现象的影响,语音交互的性能还远不能使人满意。针对混响问题,数十年来学者们不断地进行大量的研究,并提出了很多实用的方法。特别是近期兴起的在很大程度上改变语音处理格局的深度学习技术,在单通道去混响方面也取得了很多令人瞩目的效果。然而,目前系统性总结分析基于深度学习的去混响方法与经典算法之间联系的工作仍然比较匮乏。因此,本文对单通道语音去混响技术的发展脉络进行系统的梳理和总结,并讨论了有待进一步研究的开放问题。  相似文献   

14.
Since it is impractical to prerecord human speech for dynamic content such as email messages and news, many commercial speech applications use recorded human speech for fixed content (e.g. system prompts) and synthetic speech for dynamic content. However, mixing human speech and synthetic speech may not be optimal from a consistency perspective. A two-condition between-participants experiment (N = 24) was conducted to compare two versions of a telephony application for Personal Information Management (PIM). In the first condition, all the system output was delivered with synthetic speech. In the second condition, users heard a mix of human speech and synthetic speech. Users managed several email and calendar tasks. Users' task performance was rated by two independent judges. Their self-ratings of task performance and attitudinal responses were also measured by means of questionnaires. Users interacting with the interface that used only synthetic speech performed the task significantly better, while users interacting with the mixed-speech interface thought they did better and had more positive attitudinal responses. A consistency framework drawn from human psychological processing is offered to explain the difference in task performance. Cognitive processing and attitudinal response are differentiated. Design implications and directions for future research are suggested.  相似文献   

15.
针对语音去噪问题,提出一种基于循环生成对抗网络(CycleGAN)的方法来对声音场景中的语音进行去噪.该方法把CycleGAN的网络模型与不同领域间的语音转换技术进行结合与优化,通过提取语音频谱包络特征,对语音进行编码与解码的处理,旨在用先进的生成技术实现语音端到端的去噪,从而简化语音去噪过程中带来的高阶差异问题,同时...  相似文献   

16.
The effects of message type (navigation, E-mail, news story), voice type (text-to-speech, natural human speech), and earcon cueing (present, absent) on message comprehension and driving performance were examined. Twenty-four licensed drivers (12 under 30, 12 over 65, both equally divided by gender) participated in the experiment. They drove the UMTRI driving simulator on a road consisting of straight sections and constant radius curves, thus yielding two levels of low driving-workload. In addition, as a control condition, data were collected while participants were parked. In all conditions, participants were presented with three types of messages. Each message was immediately followed by a series of questions to assess comprehension. Navigation messages were about 4 seconds long (about 9 words). E-mail messages were about 40 seconds long (about 100 words) and news messages were about 80 seconds long (about 225 words). For all message types, comprehension of text-to-speech messages, as determined by accuracy of response to questions, and by subjective ratings, was significantly worse than comprehension of natural speech (79 versus 83 percent correct answers; 7.7/10 versus 8.6/10 subjective rating). Driving workload did not affect comprehension. Interestingly, neither the speech used (synthesized or natural) nor the message type (navigation, E-mail, news) had a significant effect on basic driving performance measured by the standard deviations of lateral lane position and steering wheel angle.  相似文献   

17.
文章在分析语音合成、语音转换原理和实现方法的基础上,将这两种技术相结合,设计实现了一种具有更多人类个性特征的语音合成转换系统。完成了基于Microso在SAPI5.1的文语转换,设计实现了基于高斯混合模型GMM和残差预测的语音转换系统,并对该系统进行了主客观评价;理论分析和实验结果表明’了本文设计系统的有效性。  相似文献   

18.
近年来随着移动智能设备的兴起, 人们越来越频繁的接触和使用语音信息, 语音伪造和鉴伪成为语音处理领域中愈加重要的技术. 本文首先梳理了语音合成系统的一般流程, 并对语音伪造领域中主要的文本到语音(text-to-speech, TTS)和语音转换(voice conversion, VC)两项技术进行系统归纳; 接着, 对语音鉴伪技术中常见的算法进行介绍和分类; 最后, 针对语音伪造和鉴伪目前存在的问题, 本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向.  相似文献   

19.
The problem of improving the accuracy of small vocabulary isolated word speaker dependent speech recognition under adverse conditions such as factory environments is considered. A new approach to solving this problem, by using Output Probability Distributions (OPDs), is presented. OPDs improve the system performance by modelling inter-word relationships, something that a standard maximum likelihood (ML) technique fails to do. The system was tested using the TI46 database, corrupted with the NOISEX-92 database, as well as in a real-world factory environment, and achieved good results.  相似文献   

20.
本文提出一种基于词格信息的置信度计算方法,估计自适应语音识别结果的可靠性,将不可靠的语音从自适应训练集中去掉,从而减小无监督自适应与有监督自适应间的性能差异,提高无监督自适应的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号