首页 | 本学科首页   官方微博 | 高级检索  
     

基于总体变化子空间自适应的i-vector说话人识别系统研究
引用本文:栗志意, 张卫强, 何亮, 刘加. 基于总体变化子空间自适应的i-vector说话人识别系统研究. 自动化学报, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836
作者姓名:栗志意  张卫强  何亮  刘加
作者单位:1.清华大学电子工程系 清华信息与科学技术国家实验室 北京 100084
基金项目:国家自然科学基金(61370034,61273268,61005019,90920302),北京市自然科学基金项目(KZ201110005005) 资助
摘    要:在说话人识别研究中,基于身份认证矢量(identity vector,i-vector) 的子空间建模被证明是目前最前沿最有效的说话人建模技术,其中如何有效准确地估计总体变化子空间矩阵T 成为影响系统性能好坏的关键问题. 本文针对i-vector 技术如何在新的应用环境下进行总体变化子空间矩阵T 的自适应估计问题进行了研究,并提出了两种行之有效的自适应估计算法. 在由美国国家标准技术局(American NationalInstitute of Standard and Technology,NIST) 组织的2008 年说话人识别核心评测数据库以及自行采集的测试数据库上的实验结果显示,不论采用测试集数据本身还是与测试集较匹配的开发集数据,通过本文所提的自适应算法来更新总体变化子空间矩阵均可以使更新后的子空间更有利于新测试数据下的低维子空间描述,在新的测试环境下都更有利于说话人分类. 此外实验结果还表明基于多子空间拼接的子空间自适应方法性能明显优于迭代自适应方法,而且两者的结合可达到最优的识别性能,且此时利用开发集数据进行自适应可以接近其利用测试集数据进行自适应得到的最优性能.

关 键 词:身份认证矢量   总体变化子空间   自适应   说话人识别
收稿时间:2013-11-13
修稿时间:2013-11-23

Total Variability Subspace Adaptation Based Speaker Recognition
LI Zhi-Yi, ZHANG Wei-Qiang, HE Liang, LIU Jia. Total Variability Subspace Adaptation Based Speaker Recognition. ACTA AUTOMATICA SINICA, 2014, 40(8): 1836-1840. doi: 10.3724/SP.J.1004.2014.01836
Authors:LI Zhi-Yi  ZHANG Wei-Qiang  HE Liang  LIU Jia
Affiliation:1. Tsinghua National Laboratory for Information Science and Tech-nology, Department of Electronic Engineering, Tsinghua University, Beijing 100084
Abstract:In text-independent speaker recognition, the iden-tity vector (i-vector) based modeling method has recently been proved to be the most popular and e±cient method. It is a key problem to estimate the total variability subspace T e±-ciently and accurately. In this paper, two adaptation algorithms are proposed in order to improve the performance of the i-vector base system in practical environments. Experiments on the 2008 core speaker recognition evaluation dataset of American NIST and Technology and the self-collected speaker recognition eval-uation dataset demonstrate that using the proposed adaptation algorithms to adapt to the total variability subspace T from ei-ther the test dataset or the developing dataset is effective for improving the performance. In addition, the combination of the two adaptation algorithms can achieve almost the best perfor-mance using the developing dataset rather than the test dataset.
Keywords:i-vector  total variability subspace  adaptation  speaker recognition
点击此处可从《自动化学报》浏览原始摘要信息
点击此处可从《自动化学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号