一种基于双路径深度卷积网络的声场景分类方法研究 |
| |
引用本文: | 王,丽.一种基于双路径深度卷积网络的声场景分类方法研究[J].电子器件,2021,44(2). |
| |
作者姓名: | 王 丽 |
| |
作者单位: | 正德职业技术学院机电工程系,江苏南京211106;东南大学信息科学与工程学院 江苏南京 210096 |
| |
摘 要: | 声场景分类,就是训练计算机通过声音中所包含的信息将声音正确的划分到其所属的场景中,其在物联网设备、智能助听器、自动驾驶等领域有着广泛的应用。本文根据声学特征谱图的特点和深度学习中的卷积神经网络理论,提出了一种基于卷积神经网络的声场景分类方法。首先提取音频的对数Mel谱图及其一阶二阶差分谱图,并在通道维度上进行拼接,随后利用中值滤波器对融合谱图进行分层,得到两个融合谱图分量。然后搭建了双路径深度卷积神经网络分别对每个谱图分量进行建模,并在系统输出前将两个路径获得的特征图进行融合,最后通过全连接层进行分类。并在TUT数据集上进行实验,分类准确率可达79.2%
|
关 键 词: | 声场景分类 Mel谱图 谱图分层 卷积神经网络 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《电子器件》浏览原始摘要信息 |
|
点击此处可从《电子器件》下载全文 |
|