首页 | 本学科首页   官方微博 | 高级检索  
     

基于wav2vec预训练的样例关键词识别
引用本文:李昭奇,黎塔.基于wav2vec预训练的样例关键词识别[J].计算机科学,2022,49(1):59-64.
作者姓名:李昭奇  黎塔
作者单位:中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190,中国科学院大学 北京 100049
基金项目:国家重点研发计划(2020AAA0108002)。
摘    要:样例关键词识别是将语音关键词片段与语音流中的片段匹配的任务。在低资源或零资源的情况下,样例关键词识别通常采用基于动态时间规正的方法。近年来,神经网络声学词嵌入已成为一种常用的样例关键词识别方法,但神经网络的方法受限于标注数据数量。使用wav2vec预训练可以减少神经网络对数据量的依赖,提升系统的性能。使用wav2vec模型提取的预训练特征直接替换梅尔频率倒谱系数特征后,在SwitchBoard语料库中提取的数据集上使双向长短时记忆网络的神经网络声学词嵌入系统的平均准确率提高了11.1%,等精度召回值提高了10.0%。将wav2vec特征与梅尔频率倒谱系数特征相融合以提取嵌入向量的方法进一步提高了系统的性能,与仅使用wav2vec的方法相比,融合方法的平均准确率提高了5.3%,等精度召回值提高了2.5%。

关 键 词:声学词嵌入  孤立词识别  wav2  vec预训练  样例查询  语音片段查询

Query-by-Example with Acoustic Word Embeddings Using wav2vec Pretraining
LI Zhao-qi,LI Ta.Query-by-Example with Acoustic Word Embeddings Using wav2vec Pretraining[J].Computer Science,2022,49(1):59-64.
Authors:LI Zhao-qi  LI Ta
Affiliation:(Key Laboratory of Speech Acoustics and Content Understanding,Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)
Abstract:
Keywords:Acoustic word embedding  Isolated word discrimination  wav2vec pretraining  Query-by-example  Spoken term detection
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号