基于时域波形的半监督端到端虚假语音检测方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于时域波形的半监督端到端虚假语音检测方法

作者姓名：	方昕黄泽鑫张聿晗高天潘嘉付中华高建清刘俊华邹亮

作者单位：	语音及语言信息处理国家工程实验室(中国科学技术大学), 合肥 230027 科大讯飞股份有限公司 AI研究院, 合肥 230088 中国矿业大学信息与控制工程学院, 江苏徐州 221116 西安讯飞超脑信息科技有限公司, 西安 710000

基金项目：	科技创新2030——“新一代人工智能”重大项目(2020AAA0103600)

摘要：	现代语音合成和音色转换系统产生的虚假语音对自动说话人识别系统构成了严重威胁。大多数现有的虚假语音检测系统对在训练中已知的攻击类型表现良好，但对实际应用中的未知攻击类型检测效果显著降低。因此，结合最近提出的双路径Res2Net(DP-Res2Net)，提出一种基于时域波形的半监督端到端虚假语音检测方法。首先，为了解决训练数据集和测试数据集两者数据分布差异较大的问题，采用半监督学习进行领域迁移；然后，对于特征工程，直接将时域采样点输入DP-Res2Net中，增加局部的多尺度信息，并充分利用音频片段之间的依赖性；最后，输入特征经过浅层卷积模块、特征融合模块、全局平均池化模块得到嵌入张量，用来判别自然语音与虚假伪造语音。在公开可用的ASVspoof 2021 Speech Deep Fake评估集和VCC数据集上评估了所提出方法的性能，实验结果表明它的等错误率（EER）为19.97%，与官方最优基线系统相比降低了10.8%。基于时域波形的半监督端到端检测虚假语音检测方法面对未知攻击时是有效的，且具有更高的泛化能力。
关键词：	虚假语音检测语音合成音色转换说话人识别时域半监督学习
收稿时间：	2021-11-01
修稿时间：	2022-01-13

	点击此处可从《计算机应用》浏览原始摘要信息
	点击此处可从《计算机应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏