首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
随着以隐马尔科夫模型为基础的语音合成技术的发展,冒认者很容易利用该技术生成具有目标说话人特性的合成语音,这对现有的声纹识别系统构成巨大威胁.针对此问题,文中从统计学的角度分析自然语音与合成语音在实倒谱上的区别,并提出对合成语音具有鲁棒性的声纹识别系统.实验结果初步表明,相比于传统的声纹识别系统,在对自然语音的等错误率不...  相似文献   

2.
AI克隆语音技术的出现将对现代社会法治秩序造成致命冲击。近年来研究人员仅关注了AI合成语音与样本语音内容相同领域的研究,而对AI合成语音与样本内容不同的检材的鉴定研究却甚少,相关鉴定内容无法识别。为此,提出了一种三维度基于改进MFCC特征模型对AI克隆语音源进行鉴定。首先对先前研究人员人工分析的AI克隆语音特性进行验证,总结出可识别的“共振峰F5异常活跃”与“能量、共振峰、音高曲线异常突变”的特征。其次基于AI克隆语音的特征运用二阶差分修正MFCC系数并采用“逆差逻辑推演法”将能量、共振峰、音高曲线突变特性进一步量化采样,将其定义为语音鉴定的特征向量三元组。然后以特征向量三元组为输入,运用D-S证据合成规则将三组检材与样本比对的结果融合。最后形成三维度基于改进MFCC特征参量的检材评定模型。人群随机采样实验结果表明,该AI克隆语音源鉴定方法对以同一人为克隆源所合成的AI克隆语音鉴定的平均概率为67.324%,标准差为7.32%,鉴定效果很好。  相似文献   

3.
鉴于声学特征的唯一性、稳定性,依托人工智能、大数据和云计算技术的助推,声纹识别和语音识别技术在公安实战中发挥了重要作用,为公安业务处理提供新思路、新途径、新手段,为侦查破案提供新线索。  相似文献   

4.
对利用基因算法训练连续隐马尔柯夫模型的语音识别的具体算法进行系统的研究;然后基于该语音识别技术对深圳市司法局社区矫正声纹识别系统进行详细设计。该系统上线后的运行结果表明,利用基因算法训练连续隐马尔柯夫模型的语音识别算法的识别速度较快同时具有较高的识别率。基于模式识别技术的司法社区矫正声纹识别系统建设在我国司法系统目前尚处于起步阶段,推广和建设司法社区矫正声纹识别系统具有重要的现实意义。  相似文献   

5.
频谱分析技术在语音信号处理中得到了广泛应用。短时频谱分析是各种语音频域处理方法的基础,广泛应用于语音编解码、语音合成、语音识别等领域。通过时频分析理论,对语音短时频谱分析与合成进行理论推导,表明语音短时频谱分析与合成可以通过加窗和滤波语音信号实现,并据此提出具体算法,按照该算法处理实际语音数据。合成语音与原始语音相比,差异很小。  相似文献   

6.
语音信号特征提取中Mel倒谱系MFCC的改进算法   总被引:7,自引:1,他引:6  
从说话人的语音信号中提取说话人的个性特征是声纹识别的关键。主要介绍语音信号特征提取方法中的Mel倒谱系数(Mel-Frequence Cepstral Coefficients,MFCC)的特点及其改进算法(3Q+1),分析给出了较详细的计算过程并通过实验比较了其和传统算法在语音识别系统中的差别。  相似文献   

7.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

8.
高效语音编解码算法在各方面表现优异,但算法复杂度较高,应用到处理能力差的系统上遇到较大问题,故在保证合成语音质量的基础上减低算法预算量具有较大意义。针对高效语音编解码算法中运算量较大的的基音周期搜索算法提出一种简单自相关算法。该算法通过设置一个合适的门限值,对原始语音信号进行筛选,使得参与自相关运算的样本点数降低60%,从而大大降低自相关运算量,并较大程度上保证了合成语音质量。通过对语音编解码仿真证明,应用我们的简单基音周期搜索算法,合成语音信号清晰可懂,编解码运算量大大降低。  相似文献   

9.
马仕瑛 《计算机时代》2020,(5):27-29,37
为使更多人了解使用少数民族语音产品,有效解决我国少数民族地区与其他区域之间的语言障碍问题,促进民族间的相互交流。通过搜集资料,以国内基于语音识别技术的维吾尔语、蒙古语、藏语的语音产品为研究对象,梳理其开发和应用情况,发现目前开发的相关产品主要集中于语音输入法、语音翻译软件和转录产品三方面,在此基础上,对产品使用产生的影响进行分析,并对相关语音产品的发展前景进行展望。  相似文献   

10.
南京北极星软件公司于8月份推出具有国内领先水平的声纹识别技术,并已申请专利。高端声纹识别技术(Speaker Recognition)是一种能通过说话者的声音特征辨别出其身份的智能生物识别技术。该技术能应用于安全、金融、呼叫中心等多个领域,以极高的效率对说话者身份进行自动辨别,其识别能力甚至超过人类听力的辨别水平。目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军 EP-3侦察机中就载有类似的声纹识别侦听模块。声纹识别技术有着广阔的市场应用前景。通过 SR技术,可以利用人本身的生物特性进行身份鉴别,如给公安部门进行语音验证、对一般用户进行防盗门开启等。在互联网应用及通信领域,SR 技术可以应用于诸  相似文献   

11.
为解决语音AI 的方言语音数据采集存在的数据量不够多、样本分布不均衡等问题,以语音数据收集、标注、数据交叉校验、数据集打包分享为目标,设计开发了一个语音数据采集与服务平台,提供语音数据采集、任务定制、语音与文本数据管理、数据标注、数据检索、数据下载等功能,通过微信小程序和手机APP吸引用户参与有趣的语音游戏,从而实现可定制的语音数据采集、标注、交叉校验等工作,在提升语音数据量的同时,有效解决数据采集过程中的样本分布不均衡问题,提升语音数据在方言人群和地域方面覆盖范围,提升数据质量,助力方言语音识别。  相似文献   

12.
提出了一种基于双层码本的语音驱动视觉语音合成系统,该系统以矢量量化的思想为基础,建立语音特征空间到视觉语音特征空间的粗耦合映射关系。为加强语音和视觉语音的关联性,系统分别根据语音特征与视觉语音特征的相似性两次对样本数据进行自动聚类,构造同时反映语音之间与视觉语音之间相似性的双层映射码本。数据预处理阶段,提出一种能反映视觉语音几何形状特征与牙齿可见度的联合特征模型,并在语音特征LPCC及MFCC基础上采用遗传算法提取视觉语音相关的语音特征模型。合成的视频中图像数据与原始视频中图像数据的比较结果表明,合成结果能在一定程度上逼近原始数据,取得了很好的效果。  相似文献   

13.
语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自...  相似文献   

14.
智能人机交互正作为一种新型沟通手段,逐渐走进人们的生活。近几年,语音技术逐渐改变人们的生活和工作方式。语音控制能实现交互高效、流畅、无缝,语音识别与合成技术是核心。笔者基于语音交互中的相关问题,提出Speech SDK平台残疾人辅助交互系统设计方案,有利于残障人士通过语音控制进行操作,希望通过探讨可以促进智能人机交互技术的推广应用。  相似文献   

15.
鸡尾酒会问题与相关听觉模型的研究现状与展望   总被引:2,自引:0,他引:2  
近些年,随着电子设备和人工智能技术的飞速发展,人机语音交互的重要性日益凸显.然而,由于干扰声源的存在,在鸡尾酒会等复杂开放环境下的语音交互技术远没有达到令人满意的程度.现阶段,开发一个具备较强自适应性和鲁棒性的听觉计算系统仍然是一件极具挑战性的任务.因此,鸡尾酒会问题的深入探索对智能语音处理领域中的说话人识别、语音识别、关键词唤醒等一系列重要任务都具有非常重要的研究意义和应用价值.本文综述了鸡尾酒会问题相关听觉模型研究的现状与展望.在简要介绍了听觉机理的相关研究,并概括了解决鸡尾酒会问题的多说话人语音分离相关计算模型之后,本文还讨论了受听觉认知机理启发的听觉注意建模方法,认为融入声纹记忆和注意选择的听觉模型在复杂的听觉环境下具有更好的适应性.之后,本文简单回顾了近期的多说话人语音识别模型.最后,本文讨论了目前各类计算模型用于处理鸡尾酒会问题时遇到的困难和挑战,并对未来的研究方向进行了展望.  相似文献   

16.
深度学习可以有效地解决带噪语音信号与干净语音信号之间复杂的映射问题,改善单通道语音增强的质量,但是增强语音的质量依然不理想。Transformer在语音信号处理领域中已得到了广泛应用,由于集成了多头注意力机制,可以更好地关注语音的长时相关性,该模型可以进一步改善语音增强效果。基于此,回顾了基于深度学习的语音增强模型,归纳了Transformer模型及其内部结构,从不同实现结构出发对基于Transformer的语音增强模型分类,详细分析了几种实例模型。并在常用数据集上对比了Transformer单通道语音增强的性能,分析了它们的优缺点。对相关研究工作的不足进行了总结,并对未来发展进行展望。  相似文献   

17.
本文就语音信号多脉冲激励的线性预测编码,对汉语语音进行了计算机模拟,得到了高质量的合成语音和一些初步结果。脉冲位置与幅度的确定采用最大互相关搜索算法。文中并用平均分段信噪比描述了其性能。  相似文献   

18.
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN,CDRNN结合CNN和RNN的优势,用于移动终端声纹识别应用。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到Deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-UBM等其他方案更好的识别准确率。  相似文献   

19.
针对传统声纹识别方法在实际应用场景中跨设备情况下声纹识别性能较差的问题,提出了一种基于深度学习的跨设备声纹识别方法,采用了卷积循环网络的模型架构,在声纹注册阶段录制多段语音进行声纹特征的拟合建模,在识别阶段使用了切片降噪方式提取音频中的语音信息,在设备端使用了DSP芯片支持的双麦克采集现场声音。实验结果表明,在跨设备声纹识别条件下,本文提出的声纹识别方法识别准确率高于目前主流的方法,达到80%。  相似文献   

20.
针对国网客服电话语音识别在特定领域核心词识别效果差的问题,提出一种基于HCLG领域词权重增强和领域词纠正的方法,能够实时并快速地添加领域词,从而动态地优化语言模型,提升语音识别效果。将该模型和算法优化应用在国网客服中心电话语音的咨询、维修、投诉等各种领域场景中,其语音识别结果都得到大幅改善。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号