基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法

引用本文：	虞秋辰,周若华,袁庆升.基于Ghost-SE-Res2Net的多模型融合语音唤醒词检测方法[J].计算机工程,2024(3):52-59.

作者姓名：	虞秋辰周若华袁庆升

作者单位：	1. 北京建筑大学电气与信息工程学院;2. 国家计算机网络应急技术处理协调中心

基金项目：	国家自然科学基金（11590774）；

摘要：	语音唤醒词检测(WWD)是语音交互中的关键技术，选择合适大小的检测窗对WWD性能的影响很大。提出一种新的多模型融合方法，通过融合小检测窗和大检测窗的检测结果来提高WWD性能。多模型融合方法包含两个分类模型，分别使用小检测窗和大检测窗，均基于轻量化的挤压与激励残差网络(SE-Res2Net)模块，即GhostSE-Res2Net,SE-Res2Net结构的多尺度机制可显著提升WWD的能力。在Ghost-SE-Res2Net中，首先使用Ghost卷积替换SE-Res2Net中的普通卷积以降低模型参数量，然后使用注意力池化层替换SE-Res2Net中的全局平均池化层进一步提升WWD能力。在实际检测时融合连续3个小检测窗模型的检测结果的最大值和1个大检测窗模型的检测结果，来判断唤醒词是否被触发。在训练时引入困难样本挖掘算法，选择性地学习较难检测的唤醒词信息以提高分类模型的检测性能。在包含2个唤醒词的Mobvoi数据集上评估系统性能，实验结果表明，在每小时0.5次错误唤醒的情况下，该系统在2个唤醒词上的错误拒绝率分别为0.46%和0.43%，实现了与先进基线相似的性能，并且系统参数量比基线少31...
关键词：	唤醒词检测 Ghost模块 Res2Net结构错误拒绝多模型融合

设为首页 | 免责声明 | 关于勤云 | 加入收藏