共查询到19条相似文献,搜索用时 62 毫秒
1.
从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。 相似文献
2.
基于SDC特征和GMM-UBM模型的自动语种识别* 总被引:3,自引:1,他引:3
本文提出了一种基于SDC特征和GMM-UBM模型的自动语种识别方法。SDC特征由许多语音帧的一阶差分谱连接扩展而成,与传统的MFCC特征相比,包含了更多的时序特征信息。UBM模型反映了所有待识别语种的特征分布特性,借助贝叶斯自适应算法可以快速得到每个语种的模型。与传统的GMM方法相比,该方法的训练和识别的速度更快。该方法对OGI电话语音库中11个语种进行了测试,其10秒、30秒和45秒句子的最佳识别正确率分别为72.38%、82.62%和85.23%,识别速度约为0.03倍实时。 相似文献
3.
一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用 总被引:1,自引:0,他引:1
在语种识别中,传统的MFCC特征由于每帧信号上的信息量不足,很容易受到噪声污染,且抗噪能力较弱。同时,目前普遍使用的SDC特征提取方法在参数选择上需要人为设定,这增加了识别结果的不确定性。针对上述不足,将深度学习方法引入特征提取之中,提出了基于瓶颈深度信念网络的特征提取方法。最后在NIST2007数据库上对瓶颈层的大小、隐层数目以及瓶颈层位置进行了相关的对比实验,结果表明,提出的方法相对于传统的特征提取方法能够取得更高的识别率。 相似文献
4.
5.
完成众多视觉任务的关键是提取具有较强表达能力的图像特征,传统的图像特征仅描述图像某一方面的信息,表达能力受到很大限制.文中基于卷积神经网络提出图像深度层次特征(DHF)提取算法,通过对图像的层层抽象表达,可以有效挖掘隐藏在图像内部的本质信息.首先基于卷积神经网络产生图像特征图,选取卷积输出层的特征图构建图像阶层结构.然后基于匹配实验选择最佳的层级组合,采用信息熵描述低层级特征图,采用区域平均的方法描述高层级特征图,最终构建具有较强表达能力的DHF特征.实验表明,相比已有特征,DHF特征优势明显,可以高效准确地完成图像匹配任务. 相似文献
6.
为了进一步提高卷积神经网络算法的收敛速度和识别精度,提出基于双重优化的卷积神经网络图像识别算法。在构建卷积神经网络的过程中,针对特征提取和回归分类建立双重优化模型,实现对卷积与全连接过程的集成优化,并与局部优化算法对比,分析各算法的识别率和收敛速度的差异。在手写数字集和人脸数据集上的实验表明,双重优化模型可以在较大程度上提高卷积神经网络的收敛速度和识别精度,并且这种优化策略可以进一步拓展到其它与卷积神经网络相关的深度学习算法中。 相似文献
7.
该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。 相似文献
8.
在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。 相似文献
9.
为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提... 相似文献
10.
近年来深度学习尤其是神经网络的发展,对语音识别这类复杂的模式分类问题提供了新的解决思路.为加强对我国方言语种的保护工作、提高方言语种识别的准确率以及丰富语音识别的前处理模块,首先采用目前语音识别领域应用最广泛的LSTM模型搭建单任务方言语种识别模型SLNet作为基线系统.其次,针对中国方言的多样性、复杂性特点,基于多任务学习的参数共享机制,通过多任务神经网络模型发现不同语种间的隐含相关特性,提出基于多语种任务的方言语种识别模型MTLNet.进一步根据中国方言的区域特点,采用基于参数硬共享的多任务学习模式,构建基于辅助任务的多任务学习神经网络ATLNet.经实验验证表明:相比于单任务神经网络方言语种识别,MTLNet和ATLNet将识别准确率可提升至80.2%,弥补了单任务模型的单一性和弱泛化性. 相似文献
11.
指纹检索方法使用细节点柱形编码作为特征,充分考虑指纹细节点的局部结构特征,却忽略指纹的整体结构特征,限制指纹检索的准确率.基于此种问题,文中提出基于细节点柱形编码和深度卷积特征的指纹检索方法.使用深度卷积网络学习指纹的整体结构特征(深度卷积特征),并结合深度卷积特征和细节点柱形编码,提升指纹检索的准确率.在3个经典指纹检索数据库上通过实验分析深度卷积特征的特性.实验表明,文中方法有效提升指纹检索的准确率. 相似文献
12.
针对当前关键词识别少资源或零资源场景下的要求, 提出一种基于音频自动分割技术和深度神经网络的关键词识别算法. 首先采用一种基于度量距离的改进型语音分割算法, 将连续语音流分割成孤立音节, 再将音节细分成和音素状态联系的短时音频片段, 分割后的音频片段具有段间特征差异大, 段内特征方差小的特点. 接着利用一种改进的矢量量化方法对音频片段的状态特征进行编码, 实现了关键词集内词的高精度量化编码和集外词的低精度量化编码. 最后以音节为识别单位, 采用压缩的状态转移矩阵作为音节的整体特征, 送入深度神经网络进行语音识别. 仿真结果表明, 该算法能从自然语音流中较为准确地识别出多个特定关键词, 算法易于理解、训练简便, 且具有较好的鲁棒性. 相似文献
13.
循环神经网络语言模型能解决传统N-gram模型中存在的数据稀疏和维数灾难问题,但仍缺乏对长距离信息的描述能力。为此文中提出一种基于词向量特征的循环神经网络语言模型改进方法。该方法在输入层中增加特征层,改进模型结构。在模型训练时,通过特征层加入上下文词向量,增强网络对长距离信息约束的学习能力。实验表明,文中方法能有效提高语言模型的性能。 相似文献
14.
15.
在高速网络环境中,对复杂多样的网络入侵进行快速准确的检测成为目前亟待解决的问题。联邦学习作为一种新兴技术,在缩短入侵检测时间与提高数据安全性上取得了很好的效果,同时深度神经网络(DNN)在处理海量数据时具有较好的并行计算能力。结合联邦学习框架并将基于自动编码器优化的DNN作为通用模型,建立一种网络入侵检测模型DFC-NID。对初始数据进行符号数据预处理与归一化处理,使用自动编码器技术对DNN实现特征降维,以得到DNN通用模型模块。利用联邦学习特性使得多个参与方使用通用模型参与训练,训练完成后将参数上传至中心服务器并不断迭代更新通用模型,通过Softmax分类器得到最终的分类预测结果。实验结果表明,DFC-NID模型在NSL-KDD与KDDCup99数据集上的准确率平均达到94.1%,与决策树、随机森林等常用入侵检测模型相比,准确率平均提升3.1%,在攻击类DoS与Probe上,DFC-NID的准确率分别达到99.8%与98.7%。此外,相较不使用联邦学习的NO-FC模型,DFC-NID减少了83.9%的训练时间。 相似文献
16.
17.
18.