共查询到18条相似文献,搜索用时 46 毫秒
1.
2.
3.
传统的法庭说话人识别方法存在对语音数据建模能力差、特征提取难以及容易受噪声干扰影响等问题,为了改进这些问题,提出一种基于卷积神经网络的法庭说话人识别方法.该方法以AlexNet网络为基础进行参数调整,为了弥补ReLU函数作为激活函数时易出现神经元坏死和偏移的现象,融合Tanh和ReLU函数的特性,构造一种新的TR函数作为网络的激活函数.同时,为了避免人工提取语音特征的主观性和不全面性,在实验中将语音转换成声纹图作为网络输入.实验结果表明,激活函数为TR函数时,该方法在法庭说话人识别数据集的准确率达到了92.24%,在花朵图像公开数库的准确率达到了96.13%,效果均好于Tanh和ReLU函数. 相似文献
4.
5.
在VoIP说话人识别中,当使用原始语音(未经过编译码处理)训练的说话人模型识别经过语音编译码处理的测试语音时,系统的识别性能会发生下降.本文给出了一种基于统计匹配和EM(期望最大化)算法的VoIP说话人特征(12阶的LPCC系数)补偿算法,其中对假设失真特征与未失真识别特征间符合非线性(二次函数型)和线性函数关系时的函数参数进行了估计,并使用得到的补偿函数对失真特征进行补偿.实验结果表明,该特征补偿算法对VoIP中广泛使用的G.729 8kb/s、G.723.1 6.3kb/s、G.723.1 5.3kb/s编译码所造成的识别性能下降有较大的改善,其性能也优于CMS(倒谱均值减)方法. 相似文献
6.
7.
8.
研究了修正Fukunaga-koontz变换在说话人识别中的应用方法。通过修正Fukunaga-koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模。采用NIST 2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-koontz变换在说话人识别中的识别性能。结果证实,将修正Fukunaga-koontz变换用于说话人识别获得了理想的效果,与传统的LDA降维方法相比,识别性能得到了较大的提升。 相似文献
9.
10.
结合主分量分析及Fisher准则的说话人识别方法研究 总被引:2,自引:0,他引:2
本文提出了一种基于主分量分析和Fisher准则的新的Mel频率域特征参数。它是在Mel域频谱的基础上做主分量分析,并且根据Fisher准则,按Fisher比的大小进行特征参量的选择而得到的。它充分的利用了各频带间的相关统计信息,能更紧致有效的区分说话人,这样得到的特征矢量,与传统的按相应特征值进行特征选择的方法相比,在相同维数时具有最大的类别区分度。最后我们实现了一个文本无关的说话人自动识别系统,它的后端采用矢量量化实现聚类分析。在语音库上的实验表明本文的特征矢量在说话人识别上比相同维数的传统特征矢量识别率更高,证实了它紧致、区分度好、冗余信息少的优良性能。 相似文献
11.
论文通过提取输入语音的美尔倒谱系数,线性预测倒谱系数及其差分的双重方法,在建模过程中,对原有的矢量量化模型进行改进,形成一种新的连续码字分布的矢量量化模型,并与传统的动态时间规整算法和矢量量化方法比较,进行与文本有关的说话人识别实验,获得了较好的效果。 相似文献
12.
This article discusses the approaches, potential, and limitations of forensic automatic speaker recognition (FASR) which is an exploratory application of digital speech signal processing and pattern recognition for judicial purposes, particularly for law enforcement 相似文献
13.
14.
一种改进的模糊C-均值聚类算法在说话人识别中的应用 总被引:3,自引:0,他引:3
提出了一种将改进的FCM聚类算法与矢量量化相结合的说话人识别的方法。先从语音信号中提取待识别的特征矢量集,再利用矢量量化来设计码本,最后用改进的算法对待识别语音进行辩识。该算法解决了FCM算法对初始值敏感、易陷入局部最优的问题。所使用的特征参数较少,计算比较简单,但识别率较高,且具有较好的鲁棒性。 相似文献
15.
本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。 相似文献
16.
17.
该文提出一种基于低秩约束的本征音子(Eigenphone)说话人自适应方法。原始的本征音子说话人自适应方法在自适应语料充分时具有很好的效果,然而当自适应语料不足时,出现严重的过拟合现象,导致自适应后的系统可能比自适应前的系统还要差。首先,对协方差矩阵为对角阵的隐马尔可夫-高斯混合模型语音识别系统,推导出一种简化的本征音子矩阵估计算法;然后,对本征音子矩阵引入低秩约束,采用矩阵的核范数作为矩阵秩的凸近似,通过调节核范数的权重因子以有效控制自适应模型的复杂度;最后,给出一种加速近点梯度算法以求解新算法中引入的带有核范数正则项的数学优化问题。汉语连续语音识别的说话人自适应实验表明,引入低秩约束后,本征音子说话人自适应方法的自适应效果得到了明显提高,在5~50 s的自适应数据条件下,均取得了比最大似然线性回归后接最大后验(MLLR+MAP)自适应更佳的识别效果。 相似文献
18.
近些年来,多种基于卷积神经网络(CNNs)的模型结构表现出越来越强的多尺度特征表达能力,在说话人识别的各项任务中取得了持续的性能提升。然而,目前大多数方法只能利用更深更宽的网络结构来提升性能。该文引入一种更高效的多尺度说话人特征提取框架Res2Net,并对它的模块结构进行了改进。它以一种更细粒化的工作方式,获得多种感受野的组合,从而获得多种不同尺度组合的特征表达。实验表明,该方法在参数量几乎不变的情况下,等错误率(EER)相较ResNet有20%的下降,并且在VoxCeleb, SITW等多种不同录制环境和识别任务中都有稳定的性能提升,证明了该方法的高效性和鲁棒性。改进后的全连接模块结构能更充分利用训练信息,在数据充足和任务复杂时性能提升明显。具体代码可以在https://github.com/czg0326/Res2Net-Speaker-Recognition获得。 相似文献