期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《微型机与应用》2016,(11):51-55

在文本无关说话人确认领域,基于总差异空间的说话人确认方法已成为主流方法,其中概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)因其优异的性能受到广泛关注。然而传统PLDA模型没有考虑注册语音与测试语音时长失配情况下的差异信息,不能很好地解决因时长失配带来的说话人确认系统性能下降的问题。该文提出一种估计时长差异信息方法,并将此差异信息融入PLDA模型,从而提高PLDA模型对时长差异的鲁棒性。在NIST数据库上的实验表明,所提出的方法可以较好地补偿时长差异,性能上也优于PLDA方法。相似文献

2.

基于DAE-RBM-PLDA的说话人确认信道补偿技术

《微型机与应用》2017,(15)

在说话人识别系统中,一种结合深度神经网路(DNN)、身份认证矢量(i-vector)和概率线性鉴别分析(PLDA)的模型被证明十分有效。为进一步提升PLDA模型信道补偿的性能,将降噪自动编码器(DAE)和受限玻尔兹曼机(RBM)以及它们的组合(DAE-RBM)分别应用到信道补偿PLDA模型端,降低说话人i-vector空间信道信息的影响。实验表明相比标准PLDA系统,基于DAE-PLDA和RBM-PLDA的识别系统的等错误率(EER)和检测代价函数(DCF)都显著降低,结合两者优势的DAE-RBMPLDA使系统识别性能得到了进一步提升。相似文献

3.

基于PLDA的说话人识别时变鲁棒性问题研究

《微型机与应用》2016,(5)

随着时间的变化,人的声音也会发生变化。这对说话人的识别带来了一定的影响。通过研究发现,说话人识别的性能与时间有着线性变化的规律。传统的说话人识别系统使用GMM-UBM模型并不能很好地学习出线性变化规律。由于概率线性判别分析(PLDA)对于类内与类间有着很好的线性区分度,所以为了解决线性变化的问题,选择概率线性判别分析的方法学习说话人识别中时变的线性变化规律。从实验结果看出,PLDA对于说话人识别的识别鲁棒性具有很好的提升。相似文献

4.

基于T矩阵归一化PLDA的说话人确认

缑新科王跃《计算机与现代化》2017,(10):53

利用i-vector/PLDA模型进行说话人确认时,对于不定时间的语音,由于将长度归一化后的i-vector转化到PLDA模型时,伴随着不确定性的扭曲和缩放,影响识别率。本文通过对全变量空间矩阵T的列向量执行归一化,代替在PLDA模型上对i-vector进行长度归一化,避免因在i-vector上执行长度归一化,导致转移到PLDA模型上产生不良的扭曲。实验结果表明,该方法得到和长度归一化相似的效果,部分效果要优于长度归一化。相似文献

5.

概率线性判别分析在语音命令词置信度判决中的应用

闫宏宸肖熙《计算机系统应用》2021,30(1):54-62

置信度判决用于确定语音数据与模型之间的匹配程度,可以发现语音命令系统中的识别错误,提高其可靠性.近年来,基于身份矢量(identity vector,i-vector)以及概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)的方法在说话人识别任务中取得了显著效果.本文尝试将i-vector以及PLDA模型作为一种命令词识别结果置信度分析方法,其无需声学模型、语言模型支撑,且实验表明性能良好.在此基础上,针对i-vector在刻画时序信息方面的不足,尝试将该系统与DTW融合,有效提升了系统对音频时序的鉴别能力. 相似文献

6.

基于总体变化子空间自适应的i-vector说话人识别系统研究 总被引：2，自引：0，他引：2

栗志意张卫强何亮刘加《自动化学报》2014,40(8):1836-1840

在说话人识别研究中,基于身份认证矢量（identity vector,i-vector）的子空间建模被证明是目前最前沿最有效的说话人建模技术,其中如何有效准确地估计总体变化子空间矩阵T 成为影响系统性能好坏的关键问题. 本文针对i-vector 技术如何在新的应用环境下进行总体变化子空间矩阵T 的自适应估计问题进行了研究,并提出了两种行之有效的自适应估计算法. 在由美国国家标准技术局（American NationalInstitute of Standard and Technology,NIST）组织的2008 年说话人识别核心评测数据库以及自行采集的测试数据库上的实验结果显示,不论采用测试集数据本身还是与测试集较匹配的开发集数据,通过本文所提的自适应算法来更新总体变化子空间矩阵均可以使更新后的子空间更有利于新测试数据下的低维子空间描述,在新的测试环境下都更有利于说话人分类. 此外实验结果还表明基于多子空间拼接的子空间自适应方法性能明显优于迭代自适应方法,而且两者的结合可达到最优的识别性能,且此时利用开发集数据进行自适应可以接近其利用测试集数据进行自适应得到的最优性能. 相似文献

7.

利用空间相关性的改进HMM模型 总被引：1，自引：0，他引：1

苏腾荣吴及王作英吕萍《计算机工程与设计》2010,31(5)

语音识别领域中所采用的经典HMM模型,忽略了语音信号间的相关信息.针对这一问题,利用语音信号的空间相关性对经典HMM模型进行补偿,得到一种改进模型.该方法通过空间相关变换,描述了当前语音特征与历史数据之间的空间相关性,从而对联合状态输出分布进行建模.改进模型的解码算法利用空间相关性变换的参数更新算法在经典ⅧⅥM的解码算法基础上得到.实验结果表明,上述方法在说话人无关连续语音识别系统上获得了明显的性能改进. 相似文献

8.

特征空间本征音说话人自适应

屈丹杨绪魁张文林《自动化学报》2015,41(7):1244-1252

提出了特征空间本征音说话人自适应算法,该方法首先借鉴RATZ 算法的思想,采用高斯混合模型对特征空间中的说话人信息进行建模;其次利用子空间方法实现对特征补偿项的估计,减少估计参数的数量,在对特征空间精确建模的同时,降低了算法对自适应数据量的需求.基于微软语料库的中文连续语音识别实验表明,该算法在自适应数据量极少时仍能取得较好的性能,配合说话人自适应训练能够进一步降低词错误率,其实时性优于本征音说话人自适应算法. 相似文献

9.

说话人识别中的串行因子分析

郭武戴礼荣王仁华《模式识别与人工智能》2009,22(4)

在基于因子分析的说话人识别中,提出串行训练载荷矩阵的方法.在载荷矩阵训练中,采用串行的方式训练得到说话人因子矩阵、对角阵(残差矩阵)和信道空间矩阵.在说话人注册中,将以上3个载荷矩阵拼接,采用联合估计的方法得到每个说话人的因子.采用这种策略可有效解决因子分析中的饱和问题.在NIST SRE 2006年核心测试数据库上等错误率能达到3.65%. 相似文献

10.

基于动态MFCC的说话人识别算法 总被引：1，自引：0，他引：1

《模式识别与人工智能》2005,18(5)

提出了一种基于动态MFCC特征的说话人识别算法.该算法根据说话人的基音频率随语境变化的特点,通过动态构建基于说话人基音频率的Mel-滤波器组,以抽取可以表征说话人身份特征的动态MFCC参数,提高说话人辨识的准确性和鲁棒性.此外,本文还讨论了基于高斯混合模型的分类器设计问题,给出了一个通过聚类分析获得高斯混合模型的最优混合度与相关模型参数的初始估计的方法.实验证明,本文所提出的方法在实际中能够获得较好的识别结果. 相似文献

11.

联合因子分析中的本征信道空间拼接方法 总被引：1，自引：1，他引：0

何亮史永哲刘加《自动化学报》2011,37(7):849-856

为了使联合因子分析适用于多种信道条件下的文本无关说话人识别,提出了一种本征信道空间的正交拼接法.在多信道条件下,可以通过混合数据法或简单拼接法估计本征信道空间,但前者存在空间掩盖,后者虽解决了空间掩盖但引入了空间重叠.本文首先证明说话人建模和测试的核心运算是斜投影,基于上述证明,通过将待拼接空间正交的方法移除了空间重叠.在NIST SRE 2008核心评测数据库上的实验表明,本文所提算法优于混合数据法和简单拼接法. 相似文献

12.

基于PLDA的多信道多语音说话人确认研究

许云飞周若华颜永红《微计算机应用》2014,(1):13-19

在NIST SRE 2012年评测和实际应用中,可以用说话人的多个语音样本来注册说话人模型,并且这些语音样本取自于各种各样的信道。本文基于PLDA,尝试了多种打分方法,并提出一种新的得分规整技术,在NIST SRE 2012核心测试集上,EER平均提升26.0%,MinCost平均提升12.4%。相似文献

13.

采用主成分分析的特征映射 总被引：1，自引：0，他引：1

郭武 DAI Li-Rong 王仁华《自动化学报》2008,34(8):876-879

在与文本无关的说话人识别研究中, 特征映射的方法可以有效减少信道的影响. 本文首先通过主成分分析的方法在模型域中估计出信道因子所在的空间, 然后通过映射的方法在特征参数域中减去信道因子的影响. 采用这种方法需要有信道信息标记的数据, 但是在特征映射时不需要对信道进行判决. 在NIST 2006年SRE 1conv4w-1conv4w数据库上, 采用本文推荐方法的系统相对基线系统在等错误率上降低了19\%. 相似文献

14.

说话人识别中的因子分析以及空间拼接 总被引：1，自引：0，他引：1

郭武李轶杰戴礼荣王仁华《自动化学报》2009,35(9):1193-1198

联合因子分析可以有效拟合混合高斯模型中的说话人和信道差异, 在说话人识别中得到广泛应用. 一般情况下, 该算法在对说话人和信道两个载荷矩阵进行联合估计时, 说话人残差矩阵无法发挥作用, 信道载荷矩阵的因子数不能提高. 本文提出说话人载荷矩阵、说话人残差载荷矩阵采用串行的训练模式, 在信道载荷矩阵训练中采用矩阵拼接的方法, 能够有效提高识别率; 在NIST SRE 2008年核心测试数据库的五个部分分别达到等错误率3.3%, 5.1%, 5.0%, 5.3%和5.0%. 相似文献

15.

基于最大似然线性回归矩阵的说话人识别算法研究

钟山何亮邓妍刘加《自动化学报》2009,35(5):546-550

研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression, MLLR)变换矩阵作为特征进行文本无关的说话人识别算法. 本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法, 并在此基础上进行高层音素聚类以进一步提高识别性能. 在采用多种信道补偿技术后, 在NIST SRE 2006年1训练语段-1测试语段同信道和跨信道数据库上, 基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性, 经过简单线性融合可以极大提高识别性能. 相似文献

16.

基于TLS-NAP的文本无关说话人识别算法

何亮杨毅刘加《模式识别与人工智能》2012,25(6):916-921

为提高文本无关说话人识别系统的识别率,提出一种基于总体最小二乘法的无用分量投影算法。利用总体最小二乘法估计的隐含变量考虑无用分量投影矩阵的扰动,并将该扰动最小化,使基于该隐含变量求得的投影矩阵能更好地刻画无用分量空间。在美国国家标准技术署于2008年公布说话人识别数据库上的实验结果验证该方法的有效性。相似文献

17.

采用模型和得分非监督自适应的说话人识别 总被引：1，自引：0，他引：1

王尔玉郭武李轶杰戴礼荣王仁华《自动化学报》2009,35(3):267-271

在说话人识别的研究中, 使用以前的测试语句信息对模型参数或者测试得分进行动态更新, 使模型可以更精确地反映测试语句和说话人模型之间的关系, 这种更新策略称为非监督模式, 这方面的研究对实际的说话人识别系统具有非常重要的意义. 本文除了采用非监督的说话人模型自适应更新方法之外, 还提出了非监督的得分域自适应算法: 首先采用双高斯函数对得分建立一个先验的得分模型, 利用最大后验概率准则对得分规整的模型进行调整. 在测试过程中, 采用得分域和模型域的非监督算法可以互相补充, 提高识别率, 在NIST SRE 2006年1训练语段-1测试语段数据库上, 使用模型域和得分域非监督自适应的系统能够取得等错误率4.3%和检测代价函数0.021的结果. 相似文献

18.

联合因子分析算法中基于信号子空间的空间变换方法

李晋郭武戴礼荣《模式识别与人工智能》2013,26(8):705-710

在文本无关的说话人确认系统中, 联合因子分析算法以其明确的空间估计方法成为主流的技术手段。然而由于算法流程的限制, 使用该算法得到的说话人空间和信道空间不可避免地产生重叠。为解决空间模型的重叠问题, 文中采用基于信号子空间的空间变换方法, 使空间模型分离。对于NIST SRE 2008核心测试任务中的电话信道注册-电话信道测试, 相对于不采用空间变换的联合因子分析算法, 取得9。2%等错误率的降低。相似文献

19.

Analysis of Feature Extraction and Channel Compensation in a GMM Speaker Recognition System 总被引：1，自引：0，他引：1

Burget L. Matejka P. Schwarz P. Glembek O. Cernocky J. 《IEEE transactions on audio, speech, and language processing》2007,15(7):1979-1986

In this paper, several feature extraction and channel compensation techniques found in state-of-the-art speaker verification systems are analyzed and discussed. For the NIST SRE 2006 submission, cepstral mean subtraction, feature warping, RelAtive SpecTrAl (RASTA) filtering, heteroscedastic linear discriminant analysis (HLDA), feature mapping, and eigenchannel adaptation were incrementally added to minimize the system's error rate. This paper deals with eigenchannel adaptation in more detail and includes its theoretical background and implementation issues. The key part of the paper is, however, the post-evaluation analysis, undermining a common myth that ldquothe more boxes in the scheme, the better the system.rdquo All results are presented on NIST Speaker Recognition Evaluation (SRE) 2005 and 2006 data. 相似文献