首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
近些年来,多种基于卷积神经网络(CNNs)的模型结构表现出越来越强的多尺度特征表达能力,在说话人识别的各项任务中取得了持续的性能提升。然而,目前大多数方法只能利用更深更宽的网络结构来提升性能。该文引入一种更高效的多尺度说话人特征提取框架Res2Net,并对它的模块结构进行了改进。它以一种更细粒化的工作方式,获得多种感受野的组合,从而获得多种不同尺度组合的特征表达。实验表明,该方法在参数量几乎不变的情况下,等错误率(EER)相较ResNet有20%的下降,并且在VoxCeleb, SITW等多种不同录制环境和识别任务中都有稳定的性能提升,证明了该方法的高效性和鲁棒性。改进后的全连接模块结构能更充分利用训练信息,在数据充足和任务复杂时性能提升明显。具体代码可以在https://github.com/czg0326/Res2Net-Speaker-Recognition获得。  相似文献   

2.
朱佩佩  吴元  赖作镁 《电讯技术》2022,62(5):619-624
无人机目标检测与识别任务中,目标随着飞行高度的改变尺寸发生显著变化。常规目标检测模型中,获取的小目标细节信息有限,检测精度较低;而适用于小目标的实时检测模型往往容易丢失大目标的背景信息,降低大目标的检测精度。针对以上多尺度目标检测识别任务难点,提出一种基于改进特征金字塔网络(Feature Pyramid Network, FPN)结构的实时多尺度目标检测识别模型。该模型通过增加特征金字塔层级覆盖更广的目标尺度,获取更为丰富的目标信息;同时,利用跨连接增加不同尺度特征融合的多样性,降低特征传导距离,保留更加完整的尺度特征来提高模型检测识别多尺度目标的性能。通过实验发现,相比于原始网络结构和相同特征层级的四层特征金字塔结构,加入改进特征金字塔结构的多尺度目标检测模型识别性能得到了提升。  相似文献   

3.
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。  相似文献   

4.
研究了修正Fukunaga-koontz变换在说话人识别中的应用方法。通过修正Fukunaga-koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模。采用NIST 2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-koontz变换在说话人识别中的识别性能。结果证实,将修正Fukunaga-koontz变换用于说话人识别获得了理想的效果,与传统的LDA降维方法相比,识别性能得到了较大的提升。  相似文献   

5.
张庆芳  赵鹤鸣  苏秦 《信号处理》2005,21(Z1):200-203
与文本无关的说话人识别方法是当前说话人识别技术的研究重点.本文将自组织特征映射(SOFM)网络用于矢量量化中码书的形成,改进了训练算法,并基于改进算法进行了与文本无关的说话人识别.经实验结果证明,本文的方法改善了码本的性能,提高了说话人识别的识别率.  相似文献   

6.
二次特征提取及其在说话人识别中的应用   总被引:8,自引:0,他引:8  
传统的特征提取方法在处理小范围的说话人识别时尚可为之,但是在较大用户群的情况下,由于特征覆盖范围不够导致性能下降。鉴于此,本文提出了一种新的二次特征提取方法,它通过综合运用加权、微分、组合、筛选等方法,进一步挖掘说话人语音背后的隐性个性差异。在采用138人的YOHO数据库上进行的说话人识别测试中,其性能优于传统的特征提取方法。  相似文献   

7.
在VoIP说话人识别中,当使用原始语音(未经过编译码处理)训练的说话人模型识别经过语音编译码处理的测试语音时,系统的识别性能会发生下降.本文给出了一种基于统计匹配和EM(期望最大化)算法的VoIP说话人特征(12阶的LPCC系数)补偿算法,其中对假设失真特征与未失真识别特征间符合非线性(二次函数型)和线性函数关系时的函数参数进行了估计,并使用得到的补偿函数对失真特征进行补偿.实验结果表明,该特征补偿算法对VoIP中广泛使用的G.729 8kb/s、G.723.1 6.3kb/s、G.723.1 5.3kb/s编译码所造成的识别性能下降有较大的改善,其性能也优于CMS(倒谱均值减)方法.  相似文献   

8.
李雅倩  盖成远  肖存军  吴超  刘佳甲 《电子学报》2000,48(12):2360-2366
现有深度卷积神经网络中感受野尺度单一,无法适应目标的尺度变化和边界形变,故此本文提出了一种提取并融合多尺度特征的目标检测网络.该网络通过减少池化并在网络底层加入空间加信道压缩激励模块来突出可利用的细节信息,生成高质量的特征图;此外,在深层网络中加入可变多尺度特征融合模块,该模块具有多种尺度的感受野并可根据物体边界预测采样位置,最后通过融合多尺度特征使网络具有更强的特征表达能力并且对不同尺度实例及其边界信息更具鲁棒性.实验证明,本文结构实现了比原有结构更高的平均精度,与目前主流目标检测算法相比也具有一定优势.  相似文献   

9.
对LPC(线性预测系数)参数及其派生参数进行了研究,重点讨论了各参数的计算方法,在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明,与LPC参数的派生参数相比,该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果;与直接使用LPC参数相比,该组合参数能够在运算量增加不明显的情况下改进系统的性能,特别是在测试音长度较短的情况下,对性能的改进尤为明显。  相似文献   

10.
人群计数研究普遍使用欧几里得损失函数,易造成图像局部相关性缺失,且现有研究方法未能充分提取人群图像中连续变化的尺度特征,影响了人群计数模型的性能.针对上述问题,该文提出一种基于多尺度增强网络的人群计数模型(MSEN).首先,在多分支结构生成网络中引入区域性判别网络,将二者组合形成嵌入式GAN模块,以增强生成图像的局部相关性;之后,基于金字塔池化结构设计了尺度增强模块,将该模块连接在嵌入式GAN模块之后,进一步从不同区域提取不同尺度的局部特征,以最大程度地应对人群图像局部尺度连续变化的问题,从而增强整体模型的泛化能力.最后,在3个具有挑战性的人群计数公共数据集上进行了广泛的实验.实验结果表明,该文所述模型可有效提升人群计数问题的准确性和鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号