期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于说话人聚类和支持向量的说话人确认研究 总被引：2，自引：0，他引：2

侯风雷《计算机应用》2002,22(10):33-35

说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选或选取与目标说话人相近的说话人，采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据，实验表明该方法地与文本无关的说话人确认问题是有效的。相似文献

2.

通过分离语音空间和说话人空间的说话人识别

下载免费PDF全文

邱政权尹俊勋《计算机工程与应用》2008,44(12):212-214

在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示：通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。相似文献

3.

语音识别中说话人自适应方法研究综述

朱方圆马志强陈艳张晓旭王洪彬宝财吉拉呼《计算机科学与探索》2021,15(12):2241-2255

语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向. 相似文献

4.

基于稀疏编码的鲁棒说话人识别

何勇军孙广路付茂国韩纪庆《数据采集与处理》2014,29(2):198-203

目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。相似文献

5.

基于高斯混合模型和假设检验方法的说话人确认

殷启新杨鉴《计算机应用》2004,24(Z1):371-373

采用掌上电脑录音的语音数据库,研究与文本无关的说话人识别,通过引入一种基于高斯混合模型和假设检验方法的新算法,有效提高说话人确认系统的性能.实验结果表明,以假设检验分析为基础的识别算法比传统的使用假冒说话人背景集标准化法的识别算法更加有效,可以同时获得低错误拒绝率(FRR)和低错误接受率(FAR),是一种适合于用掌上电脑录音的语音数据的方法. 相似文献

6.

一种新的说话人确认方法 总被引：3，自引：0，他引：3

张怡颖朱小燕张钹《软件学报》1999,10(4):372-376

文章在对说话人确认和说话人辨认进行比较研究的基础上,提出一种新的说话人确认方法．同传统方法相比,该方法通过建立非特定说话人模型综合多个说话人的语音特性,使其能够对于不同的待确认语音给出不同的判决阈值,从而解决了说话人确认在判决阈值设置上存在的困难．实验结果表明,该方法能够显著降低说话人确认系统的错误接受率和错误拒绝率,为说话人确认应用于保密性要求较高的环境提供了一条有效的途径．相似文献

7.

在线无监督说话人检索中稳健的模型自举算法 总被引：2，自引：0，他引：2

付中华张艳宁《软件学报》2007,18(3):608-616

基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法. 相似文献

8.

低速率信道环境下鲁棒的说话人确认

石如亮王波李弼程高新建《计算机应用》2007,27(4):919-921

研究了多种低速率信道环境下，语音编码对与文本无关说话人确认的影响。针对训练和测试语音匹配和不匹配的两种情况下，分别提出了两种方法来提高系统的鲁棒性。在前者中，通过分析语音编码对LPCC参数的影响，提出了一种基于编码失真的 LPCC 加权参数。在后者中，采用了基于高斯混合模型（GMM）的语音编码检测器，通过判别测试语音的编码类型，选择不同的说话人确认模型。实验结果表明，这两种方法提高了说话人确认系统在多信道条件下的鲁棒性。相似文献

9.

基于本征音因子分析的短时说话人识别

潘镭郭武李轶杰戴礼荣《数据采集与处理》2009,24(4)

提出了一种基于本征音因子分析的文本无关的说话人识别方法.它解决了训练语音与测试语音均很短的情况下,传统的基于最大后验概率准则的混合高斯模型无法建立稳定的说话人模型问题.首先利用期望最大化算法在开发集上训练出说话人的本征音载荷矩阵,在说话人模型建模时通过将短时语音数据向本征音空间的降维映射来得到模型参数.实验结果表明,在NIST SRE 2006数据库中的10 s训练语音-10 s测试语音任务中,在传统的混合高斯模型的基线系统上,通过采用本征音因子分析的方法可以使系统等错误率降低18%. 相似文献

10.

语音识别中神经网络声学模型的说话人自适应研究

《计算机应用与软件》2018,(2)

针对语音识别系统中测试的目标说话人语音和训练数据的说话人语音存在较大差异时,系统识别准确率下降的问题,提出一种基于深度神经网络DNN(Deep Neural Network)的说话人自适应SA(Speaker Adaptation)方法。它是在特征空间上进行的说话人自适应,通过在DNN声学模型中加入说话人身份向量I-Vector辅助信息来去除特征中的说话人差异信息,减少说话人差异的影响,保留语义信息。在TEDLIUM开源数据集上的实验结果表明,该方法在特征分别为fbank和f MLLR时,系统单词错误率WER(Word Error Rate)相对基线DNN声学模型提高了7.7%和6.7%。相似文献

11.

基于唇动的说话人识别技术

刘庆辉姚鸿勋《计算机工程与应用》2006,42(12):85-88

针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。相似文献

12.

基于HMM-UBM和短语音的说话人身份确认

李霄寒黄南晨戴蓓缮姚志强《信息与控制》2004,33(6):762-764

提出了一种简单有效的与说话人有关的阈值设置方法 ,同时在确认系统中采用高斯混合模型(GMM)作为背景模型来模拟未知的冒认者的语音 ,在冒认文本多样化的情况下获得了比用隐马尔可夫模型(HMM)作背景模型更好的性能 .本文在此基础上实现了一个基于Internet的与文本有关的远程语音身份认证系统 ,在实验测试和应用测试中均获得了满意的确认性能 . 相似文献

13.

采用韵律特征的说话人确认系统

龙艳花郭武戴礼荣《数据采集与处理》2010,25(1)

在文本无关的说话人识别中,韵律特征由于其对信道环境噪声不敏感等特性而被应用于话者识别任务中.本文对韵律参数采用基于高斯混合模型超向量的支持向量机建模方法,并将类内协方差特征映射方法应用于模型超向量上,单系统的性能比传统方法的混合高斯-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)基线系统有了40.19%的提升.该方法与本文的基于声学倒谱参数的确认系统融合后,能使整体系统的识别性能有9.25%的提升.在NIST(National institute of standards and technology mixture)2006说话人测试数据库上,融合后的系统能够取得4.9%的等错误率. 相似文献

14.

基于虚拟教师蒸馏模型的说话人确认方法

下载免费PDF全文

肖金壮李瑞鹏纪盟盟《计算机工程与应用》2022,58(8):198-203

无文本说话人确认模型通过复杂的网络结构和多变的特征提取方式来获得必要的性能,然而这会产生巨大的内存消耗和递增的计算成本,导致模型难以在资源有限的硬件设施上部署.针对该问题,利用虚拟教师蒸馏模型(teacher-free knowledge distillation,Tf-KD)可以带来百分之百的分类正确率、平滑的输出概... 相似文献

15.

基于GMM统计特性参数和SVM的话者确认 总被引：1，自引：0，他引：1

黄伟戴蓓蒨《数据采集与处理》2004,19(4):365-370

针对与文本无关的话者确认中大量训练样本数据的情况，本文提出了一种基于GMM统计特性参数和支持向量机的与文本无关的话者确认系统，以说话人的GMM统计特性参数作为特征参数训练建立目标话者的SVM模型，既有效地提取了话者特征信息，解决了大样本数据下的SVM训练问题，又结合了统计模型鲁棒性好和辨别模型分辨力好的优点，提高了确认系统的确认性能及鲁棒性。对微软麦克风语音数据库和NIST’01手机电话语音数据库的实验表明该方法的有效性。相似文献

16.

基于贝叶斯算法与高斯混和模型的语者确认研究

下载免费PDF全文

胡海波傅鹂向宏周元刘晓艳《计算机工程与应用》2007,43(29):225-227

文章针对统一背景模型与群模型两种反模型进行了分析,在基于统一背景模型与群模型的改进说话人确认模型的基础上,将贝叶斯自适应算法引入到基于高斯混合统一背景模型的说话人确认系统,解决了说话人确认中存在的模型不匹配问题,通过文本无关的测试语音库进行的实验和分析显示,改进算法具有更好的识别效果。相似文献

17.

基于TZ Normalization规整的话者确认阈值选取 总被引：3，自引：0，他引：3

刘明辉陈继旭戴蓓蒨李辉《数据采集与处理》2005,20(3):311-317

针对说话人确认中,各目标话者模型输出评分分布不一致而导致系统确认阈值设置的困难,本文采取了通过评分规整确定系统最小检测代价函数（DCF）确认阈值的方法.在分析了已有的两种评分规整方法Z normalization和T normalization的基础上,提出了一种结合两者优点的组合规整方法——TZ normalization,并据此给出了一种阈值动态修正方法,有效地提高了系统的性能和阈值选取的鲁棒性.对历年的NIST（手机电话语音）评测语料库进行了实验,表明了该方法的有效性. 相似文献

18.

A Cohort-Based Speaker Model Synthesis for Mismatched Channels in Speaker Verification

《IEEE transactions on audio, speech, and language processing》2007,15(6):1893-1903

Mismatch between enrollment and test data is one of the top performance degrading factors in speaker recognition applications. This mismatch is particularly true over public telephone networks, where input speech data is collected over different handsets and transmitted over different channels from one trial to the next. In this paper, a cohort-based speaker model synthesis (SMS) algorithm, designed for synthesizing robust speaker models without requiring channel-specific enrollment data, is proposed. This algorithm utilizes a priori knowledge of channels extracted from speaker-specific cohort sets to synthesize such speaker models. The cohort selection in the proposed new SMS can be either speaker-specific or Gaussian component based. Results on the China Criminal Police College (CCPC) speaker recognition corpus, which contains utterances from both landline and mobile channel, show the new algorithms yield significant speaker verification performance improvement over Htnorm and universal background model (UBM)-based speaker model synthesis. 相似文献