自监督聚类重训练的语音表示学习期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

自监督聚类重训练的语音表示学习

引用本文：	张文林,刘雪鹏,牛铜,杨绪魁,屈丹.自监督聚类重训练的语音表示学习[J].模式识别与人工智能,2022(5):461-471.

作者姓名：	张文林刘雪鹏牛铜杨绪魁屈丹

作者单位：	中国人民解放军战略支援部队信息工程大学信息系统工程学院

基金项目：	国家自然科学基金项目（No.61673395,62171470）资助~~；

摘要：	现有的基于重建的自监督预训练方法往往通过对语音帧的还原重建进行训练，未充分利用语音帧包含的音素信息.因此，文中结合自监督学习方法与噪声学生训练，提出基于自监督聚类重训练的语音表示学习方法.基于一个初始的语音表示模型(教师模型),利用无监督聚类得到音素类别伪标签.结合伪标签预测任务与重构任务，重新训练表示模型(学生模型).将学生模型作为新的教师模型，借助聚类与重训练，不断优化伪标签与语音表示模型.对比实验表明，经过聚类重训练后，语音表示模型在音素识别和说话人识别两项下游任务上均优于聚类重训练前的模型，性能较优.
关键词：	无监督学习自监督学习语音表示预训练模型掩蔽重建噪声学生训练