期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

常振超张兴明杨镇西张丽《小型微型计算机系统》2013,34(4)

在针对电话语音的语种识别系统中,训练语音和测试语音之间存在不同说话人的个性差异带来的干扰,是影响系统识别性能的一个重要因素.基于此,本文首先对当前语种识别系统中消除此影响的方法进行研究,对比分析它们各自的优缺点,选择将锚模型方法引入语种识别系统中,该方法将语料映射至说话人无关的锚超矩阵进而消除说话人相关信息.针对锚超矩阵的选择存在语种混淆和信息冗余等问题,本文并提出一种结合支持向量机的锚模型训练算法,该方法下得到的锚超矩阵更具语种区分性,并去除了混淆信息的影响,增强了矩阵的紧致性.实验结果表明,新方法下的锚模型映射方法能有效提高基线系统的识别性能,并降低了语种识别系统训练和识别时的计算量. 相似文献

2.

基于音素识别的语种辨识方法中的因子分析

仲海兵宋彦戴礼荣《模式识别与人工智能》2012,25(1):105-110

在基于音素识别的语种辨识系统中,特定的一段语音,音素识别的结果会受到说话人和信道等干扰因素的影响。对此,文中基于音素搭配关系对每段语音构建相应的特征向量表示。在向量空间中,利用因子分析建立噪声子空间的数学描述模型,并在语言模型的训练和识别过程加以消除。在NISTLRE2007的测试任务中,相对于基于音素识别的语种辨识基线系统,该方法可有效提高系统性能。在30s时长测试中,基于音素识别的语言模型和基于音素识别的支持向量机模型的等错误率分别相对降低14。4%和12。9%。相似文献

3.

基于深度神经网络的语种识别^*

崔瑞莲宋彦蒋兵戴礼荣《模式识别与人工智能》2015,28(12):1093-1099

语音段的有效表示方法存在易混淆语种和短时语音段识别率较低等问题,为满足不同时长和方言的识别要求,提出基于深度神经网络不同层的有效语音段表示方法.采用含有中间瓶颈层的深层神经网络作为前端特征提取,综合利用该网络的输出层和中间瓶颈层输出结果,得到不同形式的语音段表示并用于语种识别.在美国国家标准技术局语种识别评测2009年和2011年阿拉伯方言数据集上验证了方法的有效性. 相似文献

4.

基于卷积神经网络的语种识别系统

金马宋彦戴礼荣《数据采集与处理》2019,34(2):322-330

从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。相似文献

5.

基于超向量子空间分析的自动语种识别方法 总被引：2，自引：0，他引：2

宋彦戴礼荣王仁华《模式识别与人工智能》2010,23(2):165-170

在针对电话语音的自动语种识别系统中,由不同信道、说话内容及说话人等所引起的干扰是影响系统识别性能的一个重要因素。针对此,文中提出一种基于超向量子空间分析的自动语种识别方法。首先构造表征各训练语句的超向量空间并利用SVM模型进行区分性训练,然后利用子空间分析方法估计出噪声子空间,并在距离度量中去除这部分影响。在NIST 07 语种识别测试30s和10s任务中,该方法与基线系统相比,性能有明显提高,等错误率相对降低约20％。相似文献

6.

考虑性别差异基于SVM的说话人识别研究

张振领贾仰理《计算机工程与设计》2008,29(6):1516-1518

说话人识别是目前身份认证及人工智能领域研究的一个热点,解决说话人识别问题具有重要的理论价值和深远的实用意义.基于语音鲜明个性特征和显著的性别差异,提出了一种考虑性别差异的说话人识别方法,并采用SVM分类器进行训练和测试.先对SVM分类器分别进行性别识别训练和同性集合内个体识别的分类训练,建立起相应的支持向量集合,以此为基础,先后进行说话人的性别识别测试和个体识别测试.实验结果表明,该方法可以有效提高闭集说话人识别系统的性能. 相似文献

7.

基于音素解码的语种识别系统联合自适应算法研究

邓妍张卫强刘加《自动化学报》2012,38(4):652-658

针对真实环境下的语种识别,信道类型和通话内容等非语种方面因素的不同都会造成测试和训练条件的不匹配, 从而影响系统的识别性能.本文以音素识别器后接向量空间模型(Phone recognizer followed by vector space model, PRVSM)为语种识别系统,引入联合自适应算法来解决系统中测试和训练条件的失配问题.研究了三种自适应方法用于系统的不同阶段: 1)基于受约束的最大似然线性回归(Constrained maximum likelihood linear regression, CMLLR)的声学模型自适应; 2)基于全局N元文法的音位特征向量自适应; 3) VSM模型中的支持向量机(Support vector machines, SVM)自适应.在综合采用多种自适应技术后, PRVSM系统的性能有了较大的提高,在NIST LRE 2009测试库上对于30s、10s和3s的测试段, 基于不同音素识别器的PRVSM系统的等错误率(Equal error rate, EER)分别相对降低了18%～23%、12%～20%以及5%～9%. 相似文献

8.

基于流形正则化极限学习机的语种识别系统

徐嘉明张卫强杨登舟刘加夏善红《自动化学报》2015,41(9):1680-1685

支持向量机 (Support vector machine, SVM) 在语种识别中已经起到了重要的作用.近些年来,极限学习机 (Extreme learning machine, ELM) 在很多领域取得了成功的应用.相比于 SVM, ELM 最大的优点在于极易实现、训练速度快,而且通常可以取得与 SVM 相近甚至优于 SVM 的识别性能. 鉴于 ELM 这些优异的特点,本文将 ELM 引入到语种识别中,并针对 ELM 由于随机初始化模型参数所带来的潜在问题,提出了流形正则化极限学习机 (Manifold regularized extreme learning machine, MRELM) 算法.实验结果表明,在高斯超矢量(Gaussian supervector, GSV)特征空间上,相对于 SVM 基线系统,该算法对30秒语音的识别性能有明显的提升. 同时该算法也可以成功地应用到 i-vector 特征空间中,取得与当前主流的打分算法相近的识别性能. 相似文献

9.

短语音及易混淆语种识别改进系统

李卓茜高镇王化刘俊南朱光旭《中文信息学报》2019,33(10):135-142

该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。相似文献

10.

一种联合语种识别的新型大词汇量连续语音识别算法 总被引：1，自引：1，他引：0

单煜翔邓妍刘加《自动化学报》2012,38(3):366-374

提出了一种联合语种识别的新型大词汇量连续语音识别(Large vocabulary continuous speech recognition, LVCSR)算法,并构建了实时处理系统. 该算法能够充分利用语音解码过程中收集的音素识别假设,在识别语音内容的同时识别语种类别.该系统可以应用于多语种环境,不仅可以以更小的系统整体计算开销替代独立的语种识别模块,更能有效应对在同一段语音中混有非目标语种的情况,极大地减少由非目标语种引入的无意义识别错误,避免错误积累对后续识别过程的误导.为将语音内容识别和语种识别紧密整合在一个统一语音识别解码过程中,本文提出了三种不同的算法对解码产生的音素格结构进行调整(重构):一方面去除语音识别中由发音字典和语言模型引入的特定目标语种偏置,另一方面在音素格中包含更加丰富的音素识别假设.实验证明, 音素格重构算法可有效提高联合识别中语种识别的精度.在汉语为目标语种、汉英混杂的电话对话语音库上测试表明,本文提出的联合识别算法将集外语种引起的无意义识别错误减少了91.76%,纯汉字识别错误率为54.98%. 相似文献