首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

2.
传统用户登入语音识别模型的泛化性能较差,导致语音识别精度不理想。为解决上述问题,构建基于多任务训练的用户登入语音识别模型。利用循环神经网络(Recurrent Neural Network, RNN)的数据处理能力,将多任务学习(Multi-task learning, MTL)应用在循环神经网络中,采用共享隐层学习的方式并行训练多个任务,获取更多共享特征,完成多任务学习,提高循环神经网络泛化性能,构建基于MTL-RNN的语音识别模型,将用户登入连贯语音信息作为模型输入,结合多任务学习结构,通过用户身份、情感和性别的分类输出,实现用户登入语音识别。实验结果表明,上述模型具备较高语音识别准确率,语音识别非加权平均召回率较高,说明引入多任务学习可增强上述模型的语音识别的泛化能力,优化识别精度。  相似文献   

3.
该文研究了基于数据模拟方法和HMM(隐马尔科夫模型)自适应的电话信道条件下语音识别问题。模拟数据模仿了纯净语音在不同电话信道条件下的语音行为。各基线系统的HMM模型分别由纯净语音和模拟语音训练而成。语音识别实验评估了各基线系统HMM模型在采用MLLR算法(最大似然线性回归)做无监督式自适应前后的识别性能。实验证明,由纯净语音转换生成的模拟语音有效地减小了训练语音和测试语音声学性质的不匹配,很大程度上提高了电话语音识别率。基线模型的自适应结果显示模拟数据的自适应性能比纯净语音自适应的性能最大提高达到9.8%,表明了电话语音识别性能的进一步改善和系统稳健性的提高。  相似文献   

4.
研究语音识别率问题,语音信号是一种非平稳信号,含有大量噪声信息,目前大多数识别算法线性理论,难以正确识别语音信号非线性变化过程,识别正确率低。通过将隐马尔可夫模型(HMM)和SVM相结合组成一个混合抗噪语音识别模型(HMM-SVM)。同时用HMM模型对语音信号时序进行建模,并得到待识别语音信号的输出概率,然后将输出概率作为SVM的输入进行学习,得到语音分类信息,最后通过利用HMM-SVM识别结果做出正确识别决策。仿真结果表明,HMM-SVM提高语音识别正确率,尤其在低信噪比环境下,明显改善了语音识别系统的性能。  相似文献   

5.
姜莹  俞一彪 《计算机工程与设计》2012,33(4):1482-1485,1490
提出一种新的基于语音结构化模型的语音识别方法,并应用于非特定人数字语音识别.每一个数字语音计算倒谱特征之后提取语音中存在的对说话人差异具有不变性的结构化特征——全局声学结构(acoustical universal structure,AUS),并建立结构化模型,识别时提取测试语音的全局声学结构,然后与各数字语音的结构化模型进行匹配.测试了少量语料训练下的识别性能并与传统HMM (hidden Markov model)方法进行比较,结果表明该方法可以取得优于HMM的性能,语音结构化模型可以有效消除说话人之间的差异.  相似文献   

6.
基于乘积HMM的双模态语音识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。  相似文献   

7.
近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。  相似文献   

8.
该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。  相似文献   

9.
置信度的原理及其在语音识别中的应用   总被引:7,自引:2,他引:5  
由于置信度模型可以有效地判断观测数据与语音模型之间的匹配程度,因此可以用来对语音识别结果进行假设检验,定位识别结果中的错误,从而提高系统的识别率和稳健笥,讨论了语音识别中置信度的基本原理,、在值方法、模型性能评价方法、比较全面地介绍了置信度在语音识别中的各种,实验结果表明,置信度在语音识别的搜索的剪枝过程、说话人自适应以及拒识和验证方法面都有显的作用。  相似文献   

10.
基于硬件加速模块的嵌入式语音识别系统解决方案   总被引:2,自引:0,他引:2  
在基于 CHMM 模型的语音识别原理的基础上,设计了一个以 MCU 和自行设计的语音识别加速模块(ASIC 模块)为核心的低成本、高性能的嵌入式语音识别系统。该系统配合外围电路,能够独立完成语音识别工作,并且有大幅度的性能提升,从而使嵌入式语音识别更加方便简洁。以 ARM7作为系统的控制内核,语音识别加速模块负责完成隐含马尔可夫模型识别算法中运算量最大的 Ma-halanobis 距离运算部分。该系统具有低成本、高性能、高通用性、可裁剪性强等特点。  相似文献   

11.
在生物医学临床病历文本的命名实体识别任务中,传统的解决方案由于对实体的边界划分不够精确,影响了部分复合实体的识别。通过研究复合实体的特性,提出一种集成的卷积神经网络(E-CNN)模型与双向长短期记忆网络(BLSTM)和条件随机场(CRF)结合的模型,通过对CNN中的卷积层设定不同卷积窗口的大小,来捕获多个词语之间更丰富的边界特征信息。然后将集成的特征信息传递给BLSTM模型进行训练,最后由CRF模型得到最终的序列标注。实验结果表明,该方法针对临床病历文本中的复合实体识别具有良好的效果。  相似文献   

12.
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。  相似文献   

13.
传统基于脑电信号(electroencephalogram,EEG)的情感识别主要采用单一的脑电特征提取方法,为了充分利用EEG中蕴含的丰富信息,提出一种多域特征融合的脑电情感识别新方法。提取了EEG的时域、频域和空域特征,将三域特征进行融合作为情感识别模型的输入。首先计算不同时间窗EEG信号的alpha、beta、gamma三个频段功率谱密度,并结合脑电电极空间信息构成EEG图片,然后利用卷积神经网络(convolutional neural network,CNN)与双向长短期记忆网络(bidirectional long short-term memory network,BLSTM)构建CNN-BLSTM情感识别模型,分别对时、频、空三域特征进行学习。在SEED数据集对该方法进行验证,结果表明该方法能有效提高情感识别精度,平均识别准确率达96.25%。  相似文献   

14.
针对双模态情感识别框架识别率低、可靠性差的问题,对情感识别最重要的两个模态语音和面部表情进行了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19网络分别对预处理后的音视频信号进行特征提取,以直接级联的方式并通过PCA进行降维来达到特征融合的目的,使用BLSTM网络进行模型构建以完成情感识别。将该框架应用到AViD-Corpus和SEMAINE数据库上进行测试,并和传统情感识别特征层融合框架以及基于VGGNet-19或BLSTM的框架进行了对比。实验结果表明,情感识别的均方根误差(RMSE)得到降低,皮尔逊相关系数(PCC)得到提高,验证了文中提出方法的有效性。  相似文献   

15.
自动语音识别系统由声学模型和语言模型两部分构成,但传统语言模型N-gram存在忽略词条语义相似性、参数过大等问题,限制了语音识别字符错误率的进一步降低。针对上述问题,提出一种新型的语音识别系统,以中文音节(拼音)作为中间字符,以深度前馈序列记忆神经网络DFSMN作为声学模型,执行语音转中文音节任务,进而将拼音转汉字理解成翻译任务,引入Transformer作为语言模型;同时提出一种减少Transformer计算复杂度的简易方法,在计算注意力权值时引入Hadamard矩阵进行滤波,对低于阈值的参数进行丢弃,使得模型解码速度更快。在Aishell-1、Thchs30等数据集上的实验表明,相较于DFSMN结合3-gram模型,基于DFSMN和改进Transformer的语音识别系统在最优模型上的字符错误率相对下降了3.2%,达到了11.8%的字符错误率;相较于BLSTM模型语音识别系统,其字符错误率相对下降了7.1%。  相似文献   

16.
为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。  相似文献   

17.
语音情感信息具有非线性、信息冗余、高维等复杂特点,数据含有大量噪声,传统识别模型难以消除冗余和噪声信息,导致语音情感识别正确率十分低.为了提高语音情感识别正确率,利用小波分析去噪和神经网络的非线性处理能力,提出一种基于过程神经元网络的语音情感智能识别模型.采用小波分析对语音情感信号进行去噪处理,利用主成分分析消除语音情感特征中的冗余信息,采用过程神经元网络对语音情感进行分类识别.仿真结果表明,基于过程神经元网络的识别模型的识别率比K近邻提高了13%,比支持向量机提高了8.75%,该模型是一种有效的语音情感智能识别工具.  相似文献   

18.
利用隐马尔可夫模型HMM优异的时序建模能力及小波变换可以对信号进行多尺度分析并有效提取信号的局部信息的特点,建立了混合语音识别模型.在语音信号的识别过程中考虑到了信号的非平稳性,采用并行识别的方法分别获取分类信息,根据混合模型的识别算法做出识别决策,减小了系统对环境的依赖性,提高了其自适应能力.仿真实验结果表明,混合模型识别结果比单一HMM模型或小波模型识别结果更佳,提高了整体的识别速度和识别率.  相似文献   

19.
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.  相似文献   

20.
传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号