首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
针对传统声纹识别方法在实际应用场景中跨设备情况下声纹识别性能较差的问题,提出了一种基于深度学习的跨设备声纹识别方法,采用了卷积循环网络的模型架构,在声纹注册阶段录制多段语音进行声纹特征的拟合建模,在识别阶段使用了切片降噪方式提取音频中的语音信息,在设备端使用了DSP芯片支持的双麦克采集现场声音。实验结果表明,在跨设备声纹识别条件下,本文提出的声纹识别方法识别准确率高于目前主流的方法,达到80%。  相似文献   

2.
研究人的声纹的准确识别问题.声音特性没有一个统一的、不可变的标准,人的声音容易受到外界的干扰,声音的声纹美尔频率倒谱系数特征各项属性很容易发生变化.现有算法多半以声纹美尔频率倒谱系数为基础,识别效果容易受环境噪声、语音变异等因素的影响,造成声纹的干扰性变化,造成识别的精度不高.为此提出了一种基于语义特征和美尔频率倒谱系数特征相结合的声纹识别算法.利用MFCC准确提取语音中的频率特征,转化成自然语言环境下的语义特征,由于语义特征不受客观因素影响,减少了噪声信号对语音信号的影响,实现对语音特征的准确识别.实验表明,利用改进算法实现了差异化车辆图像的正确识别,提高了识别的准确度.  相似文献   

3.
刘晓璇  季怡  刘纯平 《计算机科学》2021,48(z2):270-274
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优.  相似文献   

4.
通过分析掌纹、指纹、虹膜、人脸、步态、声纹等生物特征识别技术的特点以及煤矿现场对入井人员生物特征的影响,指出虹膜识别、人脸识别、步态识别、声纹识别适用于煤矿入井人员唯一性检测;提出了一种基于人员定位和生物特征识别的煤矿入井人员唯一性检测技术方案,将生物特征识别技术嵌入人员定位系统,利用人员定位识别卡实现识别卡数量及人员身份的唯一性检测;指出煤矿入井人员唯一性检测技术的研究关键点是严重污染人脸的识别算法、对设备遮挡情况下人员步态图像的采集及对混入人员语音信号的煤矿现场噪声消除算法。  相似文献   

5.
语音是人类最重要的交流方式之一。语音信号中除了文本内容外,还包含了说话人的身份、种族、年龄、性别和情感等丰富的信息,其中说话人身份的识别也被称为声纹识别,是一种生物特征识别技术。声纹具有获取方便、容易保存、使用简单等特点,而深度学习技术的进步也极大地促进了识别准确率的提升,因此,声纹识别已被应用于智慧金融、智能家居、语音助手和司法调查等领域。另一方面,针对深度学习模型的对抗样本攻击受到了广泛关注,在输入信号中添加不可感知的微小扰动即可导致模型预测结果错误。对抗样本的出现对基于深度学习的声纹识别也将造成巨大的安全威胁。现有声纹对抗样本防御方法会不同程度地影响正常样本的识别,并且局限于特定的攻击方法或识别模型,鲁棒性较差。为了使对抗防御能够兼顾纠正错误输出和准确识别正常样本两个方面,本文提出一种“破坏+重建”的两阶段对抗样本防御方法。第一阶段,在对抗样本中添加具有一定信噪比幅度限制的高斯白噪声,破坏对抗扰动的结构进而消除样本的对抗性。第二阶段,利用提出的名为SCAT-Wave-U-Net的语音增强模型重建原始语音样本,通过在Wave-U-Net模型结构中引入Transformer全局多头自...  相似文献   

6.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

7.
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN,CDRNN结合CNN和RNN的优势,用于移动终端声纹识别应用。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到Deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-UBM等其他方案更好的识别准确率。  相似文献   

8.
电力变压器是直接影响电力系统安全运行的重要设备之一,目前多采用图像或侵入式传感测量的方式,本文设计了变压器声纹采集装置、特征提取方法、以及基于迁移学习的深度神经网络识别模型.首先,采集并预处理变压器噪声信号,对分帧信号进行时域和频域特征提取,获得声纹特征向量,然后,输入迁移学习算法模型,实现变压器直流偏磁、过负荷、以及绕组变形等8种工况的智能识别诊断,最后,设计声纹特征数据库建立方法,采集变压器运行声学样本,对声纹识别算法模型进行训练和优化.通过数据集对比测试和变电站部署应用,验证了算法模型的识别准确度和系统可行性,该装置可作为当前监测手段的有效补充,提高变压器综合监测和潜伏性缺陷识别能力.  相似文献   

9.
为提升自动控制效果,加快翻译速率,设计基于智能语音的翻译机器人自动化控制系统。采集外界智能语音信号,利用A/D转换器得到数字信号,启动语音唤醒模块激活翻译机器人,听写模式识别复杂语音信号,命令模式识别简单语音信号,得到语言文本识别结果,通过深度学习关键词检测方法提取关键词作为翻译机器人的自动化控制指令,通过单片机识别自动化控制指令。实验结果表明,该系统可有效采集外界智能语音信号,提取智能语音信号的关键词,完成翻译机器人自动化控制。  相似文献   

10.
《计算机工程》2017,(5):210-216
针对传统车辆识别算法鲁棒性及实时性不强的问题,结合局部线性约束编码(LLC)和加权空间金字塔匹配(SPM)模型,提出一种车辆品牌型号精细识别算法。提取图像方向梯度直方图特征,通过LLC对图像特征进行编码映射,得到具有语义信息的图像表达向量,以提高识别的准确率。利用加权SPM模型将空间位置信息引入图像表达向量中,并将每个图像的最终表达送入线性支持向量机分类器进行训练与识别。使用交通监控摄像头在不同天气和光照条件下采集150种车辆类型共56 827张图像进行实验,结果表明,该算法可有效改善识别效果,提高识别速度。  相似文献   

11.
针对说话人识别易受环境噪声影响的问题,借鉴生物听皮层神经元频谱-时间感受野(STRF)的时空滤波机制,提出一种新的声纹特征提取方法。在该方法中,对基于STRF获得的听觉尺度-速率图进行了二次特征提取,并与传统梅尔倒谱系数(MFCC)进行组合,获得了对环境噪声具有强容忍的声纹特征。采用支持向量机(SVM)作为分类器,对不同信噪比(SNR)语音数据进行测试的结果表明,基于STRF的特征对噪声的鲁棒性普遍高于MFCC系数,但识别正确率较低;组合特征提升了语音识别的正确率,同时对环境噪声具有良好的鲁棒性。该结果说明所提方法在强噪声环境下说话人识别上是有效的。  相似文献   

12.
针对说话人识别易受环境噪声影响的问题,借鉴生物听皮层神经元频谱-时间感受野(STRF)的时空滤波机制,提出一种新的声纹特征提取方法。在该方法中,对基于STRF获得的听觉尺度-速率图进行了二次特征提取,并与传统梅尔倒谱系数(MFCC)进行组合,获得了对环境噪声具有强容忍的声纹特征。采用支持向量机(SVM)作为分类器,对不同信噪比(SNR)语音数据进行测试的结果表明,基于STRF的特征对噪声的鲁棒性普遍高于MFCC系数,但识别正确率较低;组合特征提升了语音识别的正确率,同时对环境噪声具有良好的鲁棒性。该结果说明所提方法在强噪声环境下说话人识别上是有效的。  相似文献   

13.
对利用基因算法训练连续隐马尔柯夫模型的语音识别的具体算法进行系统的研究;然后基于该语音识别技术对深圳市司法局社区矫正声纹识别系统进行详细设计。该系统上线后的运行结果表明,利用基因算法训练连续隐马尔柯夫模型的语音识别算法的识别速度较快同时具有较高的识别率。基于模式识别技术的司法社区矫正声纹识别系统建设在我国司法系统目前尚处于起步阶段,推广和建设司法社区矫正声纹识别系统具有重要的现实意义。  相似文献   

14.
为解决噪声环境下语音识别率降低以及传统波束形成算法难以处理空间噪声的问题,基于双微阵列结构提出了一种改进的最小方差无畸变响应(MVDR)波束形成方法。首先,采用对角加载提高双微阵列增益,并利用递归矩阵求逆降低计算复杂度;然后,通过后置调制域谱减法对语音作进一步处理,解决了一般谱减法容易产生音乐噪声的问题,有效减小了语音畸变,获得了良好的噪声抑制效果;最后,采用卷积神经网络(CNN)进行语音模型的训练,提取语音深层次的特征,有效地解决了语音信号多样性问题。实验结果表明,提出的方法在经CNN训练的语音识别系统模型中取得了较好的识别效果,在信噪比为10 dB的F16噪声环境下的语音识别率达到了92.3%,具有良好的稳健性。  相似文献   

15.
一种基于MVDR和CCBC的抗噪语音识别方法   总被引:1,自引:0,他引:1  
提出了一种适用于抗噪声语音识别的方法,其特征提取过程基于最小方差无失真响应(Minimum variance distortionles sresponse,MVDR)谱估计方法,并对该特征进行频率弯折以提高其知觉分辨率,最后使用基于正则相关分析的谱变换补偿(Canonical correlation based on compensation,CCBC)法对该特征进行自适应处理,从而提高了系统的鲁棒性。在展览馆噪声、人群噪声和汽车噪声下,与基于传统Mel倒谱系数(MFCC)特征的系统进行了对比实验,结果表明使用本文方法的语音识别系统的识别率得到了显著的提高。  相似文献   

16.
语音端点检测是语音识别系统的一个重要组成部分,特别是在噪声环境下,其准确性直接影响到语音识别系统的计算复杂度和识别性能。提出了一种在噪声环境下基于短时TEO能量的语音信号端点检测方法,采用了双门限-三态转换判决机制以保证算法在噪声环境下的端点检测准确性和对信号绝对幅度变化的稳健性。实验结果表明,与传统的短时能量法和谱熵法相比,该算法在低信噪比情况下具有更好的端点检测能力,显示了算法的优越性。  相似文献   

17.
文章设计开发的基于声纹识别和语音识别的网络账号身份认证系统主要包含声纹录入、建库以及声纹判别两个部分。网络用户注册时,对用户的声纹进行采集;用户再次登录时,将用户的声纹与数据库中的声纹进行比较,通过声纹识别验证用户身份,确保用户的数据安全。系统建立在服务器端,安装方便快捷,安全性高。对用户要求低,仅需要一部麦克风即可完成注册。系统操作方便、简单,安全性、保密性好,市场前景广阔。  相似文献   

18.
贾晶  李英 《电脑开发与应用》2012,25(2):40-42,46
分析和研究了基于声波耦合和语音增强模块级联的语音增强方法的工业语音识别系统设计和实施过程,并对其进行了算法建模,同时在比较谱减法和MMSE-LSA的语音增强算法的同时进行了实验数据分析,使工业机器人语音识别系统在噪声环境下提高了识别率。  相似文献   

19.
针对多数语音识别系统在噪音环境下性能急剧下降的问题,提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过组合语音信号和其差分信号的上升过零率获得频率信息,通过峰值检测和非线性幅度加权来获取强度信息,二者组合在一起,得到输出语音特征,再分别用BP神经网络和HMM进行训练和识别。仿真实现了不同信噪比下不依赖人的50词的语音识别,给出了识别的结果,证明了组合差分信息的过零与峰值幅度特征具有较强的抗噪声性能。  相似文献   

20.
为了提高语音识别系统的鲁棒性,提出一种基于GBFB(spectro-temporal Gabor filter bank)的声学特征提取方法,并通过分块PCA算法对高维的GBFB特征进行降维处理,最后在多个相同噪音环境对GBFB特征以及常用的GFCC,MFCC,LPCC等特征进行抗噪性能对比,与GFCC相比GBFB特征的识别率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9个分贝。实验结果表明,在噪音环境下与传统的GFCC、MFCC以及LPCC等特征相比GBFB特征有更优越的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号