基于CRNN混合神经网络的多语种识别 |
| |
作者姓名: | 王瑶 龙华 邵玉斌 杜庆治 王延凯 |
| |
作者单位: | 昆明理工大学 信息工程与自动化学院,云南 昆明 650500,昆明理工大学 信息工程与自动化学院,云南 昆明 650500,昆明理工大学 信息工程与自动化学院,云南 昆明 650500,昆明理工大学 信息工程与自动化学院,云南 昆明 650500,昆明理工大学 信息工程与自动化学院,云南 昆明 650500 |
| |
基金项目: | 国家自然科学基金(61761025)资助项目 |
| |
摘 要: | 在语种识别过程中,为提取语音信号中的空间特 征以及时序特征,从而达到提高多语 种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提 取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空 间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经 网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相 比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别 准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。
|
关 键 词: | 语种识别 卷积循环神经网络混合神经网络 卷积神经网络 循环神经网络 |
收稿时间: | 2021-09-06 |
修稿时间: | 2021-09-28 |
|
| 点击此处可从《光电子.激光》浏览原始摘要信息 |
|
点击此处可从《光电子.激光》下载全文 |
|