基于Bi LSTM-CTC的语音识别系统研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Bi LSTM-CTC的语音识别系统研究

引用本文：	崔丽霞,许利显.基于Bi LSTM-CTC的语音识别系统研究[J].自动化与仪器仪表,2023(10):90-94.

作者姓名：	崔丽霞许利显

作者单位：	1. 西安翻译学院;2. 中兴通讯股份有限公司

摘要：	传统模型较难识别出数量庞大的数据，为了提高对日语语音识别系统的准确率，此次研究综合了语音识别与深度学习的基本理论。在此基础上，提出使用Fbank特征作为声学模型的输入特征，构建了基于双向长短期记忆网络(Bi-directional Long-Short Term Memory, BiLSTM)的日语语音识别系统。结果表明，预加重后的日语语音信号能量变化幅度在-35 dB至0 dB的范围内，频谱分布更加平衡。在经过多轮次训练后，BiLSTM-CTC模型的词错率比其他两种模型分别低了11.03%、3.63%,具有更加优越的性能。在使用Fbank特征时，研究模型的词错率比使用梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients, MFCC)特征时低。这表明采用Fbank特征能够提高日语语音识别的精度。此次研究不仅对深度学习技术的发展提供重要的理论，还对以深层神经网络为基础的语音识别具有重要的现实意义。
关键词：	日语语音识别系统 Bi LSTM-CTC Fbank特征