首页 | 本学科首页   官方微博 | 高级检索  
     

基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法
引用本文:虞秋辰,周若华,袁庆升.基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法[J].计算机工程,2024(3):52-59.
作者姓名:虞秋辰  周若华  袁庆升
作者单位:1. 北京建筑大学电气与信息工程学院;2. 国家计算机网络应急技术处理协调中心
基金项目:国家自然科学基金(11590774);
摘    要:语音唤醒词检测(WWD)是语音交互中的关键技术,选择合适大小的检测窗对WWD性能的影响很大。提出一种新的多模型融合方法,通过融合小检测窗和大检测窗的检测结果来提高WWD性能。多模型融合方法包含两个分类模型,分别使用小检测窗和大检测窗,均基于轻量化的挤压与激励残差网络(SE-Res2Net)模块,即GhostSE-Res2Net,SE-Res2Net结构的多尺度机制可显著提升WWD的能力。在Ghost-SE-Res2Net中,首先使用Ghost卷积替换SE-Res2Net中的普通卷积以降低模型参数量,然后使用注意力池化层替换SE-Res2Net中的全局平均池化层进一步提升WWD能力。在实际检测时融合连续3个小检测窗模型的检测结果的最大值和1个大检测窗模型的检测结果,来判断唤醒词是否被触发。在训练时引入困难样本挖掘算法,选择性地学习较难检测的唤醒词信息以提高分类模型的检测性能。在包含2个唤醒词的Mobvoi数据集上评估系统性能,实验结果表明,在每小时0.5次错误唤醒的情况下,该系统在2个唤醒词上的错误拒绝率分别为0.46%和0.43%,实现了与先进基线相似的性能,并且系统参数量比基线少31...

关 键 词:唤醒词检测  Ghost模块  Res2Net结构  错误拒绝  多模型融合
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号