首页 | 本学科首页   官方微博 | 高级检索  
     

基于Bi LSTM-CTC的语音识别系统研究
引用本文:崔丽霞,许利显.基于Bi LSTM-CTC的语音识别系统研究[J].自动化与仪器仪表,2023(10):90-94.
作者姓名:崔丽霞  许利显
作者单位:1. 西安翻译学院;2. 中兴通讯股份有限公司
摘    要:传统模型较难识别出数量庞大的数据,为了提高对日语语音识别系统的准确率,此次研究综合了语音识别与深度学习的基本理论。在此基础上,提出使用Fbank特征作为声学模型的输入特征,构建了基于双向长短期记忆网络(Bi-directional Long-Short Term Memory, BiLSTM)的日语语音识别系统。结果表明,预加重后的日语语音信号能量变化幅度在-35 dB至0 dB的范围内,频谱分布更加平衡。在经过多轮次训练后,BiLSTM-CTC模型的词错率比其他两种模型分别低了11.03%、3.63%,具有更加优越的性能。在使用Fbank特征时,研究模型的词错率比使用梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients, MFCC)特征时低。这表明采用Fbank特征能够提高日语语音识别的精度。此次研究不仅对深度学习技术的发展提供重要的理论,还对以深层神经网络为基础的语音识别具有重要的现实意义。

关 键 词:日语  语音识别系统  Bi  LSTM-CTC  Fbank特征
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号