期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

崔瑞莲宋彦蒋兵戴礼荣《模式识别与人工智能》2015,28(12):1093-1099

语音段的有效表示方法存在易混淆语种和短时语音段识别率较低等问题,为满足不同时长和方言的识别要求,提出基于深度神经网络不同层的有效语音段表示方法.采用含有中间瓶颈层的深层神经网络作为前端特征提取,综合利用该网络的输出层和中间瓶颈层输出结果,得到不同形式的语音段表示并用于语种识别.在美国国家标准技术局语种识别评测2009年和2011年阿拉伯方言数据集上验证了方法的有效性. 相似文献

2.

基于超向量子空间分析的自动语种识别方法 总被引：2，自引：0，他引：2

宋彦戴礼荣王仁华《模式识别与人工智能》2010,23(2):165-170

在针对电话语音的自动语种识别系统中,由不同信道、说话内容及说话人等所引起的干扰是影响系统识别性能的一个重要因素。针对此,文中提出一种基于超向量子空间分析的自动语种识别方法。首先构造表征各训练语句的超向量空间并利用SVM模型进行区分性训练,然后利用子空间分析方法估计出噪声子空间,并在距离度量中去除这部分影响。在NIST 07 语种识别测试30s和10s任务中,该方法与基线系统相比,性能有明显提高,等错误率相对降低约20％。相似文献

3.

一种基于层次化支持向量机的语种识别方法 总被引：2，自引：0，他引：2

雷文辉宋彦戴礼荣《小型微型计算机系统》2009,30(4)

基于广义线性区分性序列核的支持向量机方法在语种识别中了得到了广泛应用.本文此基础上,进一步提出了一种层次化的SVM方法,通过将训练语音切分成不同时长的语音段集合.利用长时语音段训练得到的模型对短时语音段集合进行数据选择.同时借鉴互训练的思想,采用互补的特征参数训练SVM模型,并对不同时长、特征的系统识别结果加以融合,有效提高了系统性能.在NIST 2003语种测试中30秒时长的测试结果表明,本文所提方法有效的提升了语种识别的性能,等错误率(EER)从6.3降到了4.5%. 相似文献

4.

基于音素识别的语种辨识方法中的因子分析

仲海兵宋彦戴礼荣《模式识别与人工智能》2012,25(1):105-110

在基于音素识别的语种辨识系统中,特定的一段语音,音素识别的结果会受到说话人和信道等干扰因素的影响。对此,文中基于音素搭配关系对每段语音构建相应的特征向量表示。在向量空间中,利用因子分析建立噪声子空间的数学描述模型,并在语言模型的训练和识别过程加以消除。在NISTLRE2007的测试任务中,相对于基于音素识别的语种辨识基线系统,该方法可有效提高系统性能。在30s时长测试中,基于音素识别的语言模型和基于音素识别的支持向量机模型的等错误率分别相对降低14。4%和12。9%。相似文献

5.

一种结合支持向量机训练的锚模型语种识别方法

常振超张兴明杨镇西张丽《小型微型计算机系统》2013,34(4)

在针对电话语音的语种识别系统中,训练语音和测试语音之间存在不同说话人的个性差异带来的干扰,是影响系统识别性能的一个重要因素.基于此,本文首先对当前语种识别系统中消除此影响的方法进行研究,对比分析它们各自的优缺点,选择将锚模型方法引入语种识别系统中,该方法将语料映射至说话人无关的锚超矩阵进而消除说话人相关信息.针对锚超矩阵的选择存在语种混淆和信息冗余等问题,本文并提出一种结合支持向量机的锚模型训练算法,该方法下得到的锚超矩阵更具语种区分性,并去除了混淆信息的影响,增强了矩阵的紧致性.实验结果表明,新方法下的锚模型映射方法能有效提高基线系统的识别性能,并降低了语种识别系统训练和识别时的计算量. 相似文献

6.

跨语种民航陆空通话语音识别模型研究

刘远庆郭晓静张海刚杨金锋《计算机应用与软件》2021,38(5):158-163,189

为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提取特征阶段加入低帧率.实验结果表明,卷积深度神经网络声学模型可较好地应用于民航陆空通话领域;音素映射方法能够进一步提高识别性能;加入低帧率后有效缩短了训练时间且使词错误率下降到4.28％. 相似文献

7.

基于对比预测编码模型的多任务学习语种识别方法

赵建川杨浩铨徐勇吴恋崔忠伟《数据采集与处理》2022,37(2):288-297

语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络（Time-delayed neural network, TDNN）可以提取包含丰富上下文信息的特征向量,有效提高系统性能。本文提出一种ECAPA（Emphasized channel attention）-TDNN+对比预测编码（Contrastive predictive coding,CPC）模型的多任务学习语种识别网络。ECAPA-TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA-TDNN提取的帧级特征进行对比预测学习,通过联合损失函数进行优化训练。在东方语种竞赛数据集AP17-OLR的10类语种上进行了实验。实验结果表明,本文提出的网络在1 s,3 s和全长（All）测试集测得的识别准确率相比于基础网络都有明显的提高。相似文献

8.

基于渐进比率掩蔽目标的自适应噪声估计方法

高建清屠彦辉马峰付中华《计算机应用》2023,(4):1303-1308

基于深度学习的语音增强算法的性能通常优于传统的基于噪声抑制的语音增强算法。然而当训练数据和测试数据之间存在不匹配时,基于深度学习的语音增强算法通常无法正常工作。针对上述问题,提出一种新的基于渐进比率掩蔽（PRM）的自适应噪声估计（PRM-ANE）方法,并把它作为语音识别系统的预处理方法。所提方法综合利用了具有帧级别的噪声跟踪能力的改进最小统计量控制递归平均（IMCRA）算法和具有学习噪声和语音之间复杂非线性映射关系的渐进学习算法这两种算法。首先,使用二维卷积神经网络（2D-CNN）学习随信噪比（SNR）增加的PRM;其次,通过传统的帧级语音增强算法组合句子级估计的PRM,进行语音增强;最后,将基于多级别信息融合的增强语音直接作为语音识别系统的输入,从而提高识别系统性能。在CHiME-4真实测试集上的实验结果表明,所提方法可以实现7.42%的相对字识别错误率（WER）,与IMCRA语音增强方法相比下降了51.41%,可见所提方法能够有效提升下游识别任务的性能。相似文献

9.

短语音及易混淆语种识别改进系统

李卓茜高镇王化刘俊南朱光旭《中文信息学报》2019,33(10):135-142

该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。相似文献

10.

集成语种辨识的中英文LVCSR系统

孙健王作英《计算机工程与设计》2007,28(8):1931-1933

为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统.为了在中、英文连续语音识别系统中能够尽早的对语音所属的语言种类做出判决以便进行识别,从而降低解码的计算量,对语种辨识过程中的语种剪枝进行了研究,表明采用合理的语种剪枝门限在不降低系统性能的情况下,可以有效的降低系统的计算量及识别时间. 相似文献

11.

A hierarchical language identification system for Indian languages

S. Jothilakshmi V. Ramalingam S. Palanivel 《Digital Signal Processing》2012,22(3):544-553

Automatic spoken Language IDentification (LID) is the task of identifying the language from a short duration of speech signal uttered by an unknown speaker. In this work, an attempt has been made to develop a two level language identification system for Indian languages using acoustic features. In the first level, the system identifies the family of the spoken language, and then it is fed to the second level which aims at identifying the particular language in the corresponding family. The performance of the system is analyzed for various acoustic features and different classifiers. The suitable acoustic feature and the pattern classification model are suggested for effective identification of Indian languages. The system has been modeled using hidden Markov model (HMM), Gaussian mixture model (GMM) and artificial neural networks (ANN). We studied the discriminative power of the system for the features mel frequency cepstral coefficients (MFCC), MFCC with delta and acceleration coefficients and shifted delta cepstral (SDC) coefficients. Then the LID performance as a function of the different training and testing set sizes has been studied. To carry out the experiments, a new database has been created for 9 Indian languages. It is shown that GMM based LID system using MFCC with delta and acceleration coefficients is performing well with 80.56% accuracy. The performance of GMM based LID system with SDC is also considerable. 相似文献

12.

结合一维扩展卷积与Attention机制的NLP模型

下载免费PDF全文

廖文雄曾碧徐雅芸《计算机工程与应用》2021,57(4):114-119

自然语言处理作为人工智能的一个分支,在日常生活中有着广泛的应用。随着循环神经网络在自然语言处理领域的应用以及循环神经网络的不断演进与迭代,自然语言处理有了很大的飞跃。循环神经网络也因此迅速成为自然语言处理领域的主流算法,但是其具有结构复杂和训练时间漫长的缺点。提出一种基于一维扩展卷积和Attention机制的自然语言处理模型,利用一维扩展卷积提取语言文本的深层特征,再通过Attention机制给深层特征分配权重以整合各个时序特征。实验结果表明,该模型只需循环神经网络约30%的训练时间,就能达到与循环神经网络相近的性能,验证了该模型的有效性。相似文献

13.

验证和识别相融合的深度行人识别网络

蔡晓东杨超王丽娟甘凯今《计算机应用》2016,36(9):2550-2554

找到能减小类内距离、增大类间距离的特征表示方法是行人识别的一个挑战。提出一种基于行人验证和识别相融合的深度网络模型来解决这一问题。首先,识别监督学习网络模型增加不同个人的类间间距,验证监督学习网络模型减少同一个行人的类内间距;然后,将行人验证和识别的深度网络融合,提取到更有分辨能力的行人特征向量;最后,采用了联合贝叶斯的行人比对方法,通过监督学习排名的方式,提高行人比对的准确率。实验结果表明,所提方法在VIPeR库上同其他深度网络相比有较高的识别准确率,融合网络与单独的识别和验证网络相比有更高的收敛速度和识别准确率。相似文献

14.

基于SDC特征和GMM-UBM模型的自动语种识别^* 总被引：3，自引：1，他引：3

姜洪臣郑榕张树武徐波《中文信息学报》2007,21(1):49-53

本文提出了一种基于SDC特征和GMM-UBM模型的自动语种识别方法。SDC特征由许多语音帧的一阶差分谱连接扩展而成,与传统的MFCC特征相比,包含了更多的时序特征信息。UBM模型反映了所有待识别语种的特征分布特性,借助贝叶斯自适应算法可以快速得到每个语种的模型。与传统的GMM方法相比,该方法的训练和识别的速度更快。该方法对OGI电话语音库中11个语种进行了测试,其10秒、30秒和45秒句子的最佳识别正确率分别为72.38%、82.62%和85.23%,识别速度约为0.03倍实时。相似文献

15.

基于区分性准则的Bottleneck特征及其在LVCSR中的应用

刘迪源郭武《数据采集与处理》2016,31(2):331-337

基于深层神经网络中间层的Bottleneck(BN)特征由于可以采用传统的混合高斯模型-隐马尔可夫建模(Gaussian mixture model-hidden Markov model, GMM-HMM),在大规模连续语音识别中获得了广泛的应用。为了提取区分性的BN特征,本文提出在使用传统的BN特征训练好GMM-HMM模型之后,利用最小音素错误率（Minimum phone error, MPE）准则来优化BN网络参数以及GMM-HMM模型参数。该算法相对于其他区分性训练算法而言,采用的是全部数据作为一个大的数据包,而不是小的包方式来训练深度神经网络,从而可以大大加快训练速度。实验结果表明,优化后的BN特征提取网络比传统方法能获得9%的相对词错误率下降。相似文献

16.

知识堆叠降噪自编码器EI北大核心CSCD

刘国梁余建波《自动化学报》2022,48(3):774-786

深度神经网络是具有复杂结构和多个非线性处理单元的模型,广泛应用于计算机视觉、自然语言处理等领域.但是,深度神经网络存在不可解释这一致命缺陷,即“黑箱问题”,这使得深度学习在各个领域的应用仍然存在巨大的障碍.本文提出了一种新的深度神经网络模型——知识堆叠降噪自编码器(Knowledge-based stacked denoising autoencoder,KBSDAE).尝试以一种逻辑语言的方式有效解释网络结构及内在运作机理,同时确保逻辑规则可以进行深度推导.进一步通过插入提取的规则到深度网络,使KBSDAE不仅能自适应地构建深度网络模型并具有可解释和可视化特性,而且有效地提高了模式识别性能.大量的实验结果表明,提取的规则不仅能够有效地表示深度网络,还能够初始化网络结构以提高KBSDAE的特征学习性能、模型可解释性与可视化,可应用性更强. 相似文献

17.

融合判别式深度特征学习的图像识别算法

下载免费PDF全文

黄旭凌志刚李绣心《中国图象图形学报》2018,23(4):510-518

目的卷积神经网络在图像识别算法中得到了广泛应用。针对传统卷积神经网络学习到的特征缺少更有效的鉴别能力而导致图像识别性能不佳等问题,提出一种融合线性判别式思想的损失函数LDloss（linear discriminant loss）并用于图像识别中的深度特征提取,以提高特征的鉴别能力,进而改善图像识别性能。方法首先利用卷积神经网络搭建特征提取所需的深度网络,然后在考虑样本分类误差最小化的基础上,对于图像多分类问题,引入LDA（linear discriminant analysis）思想构建新的损失函数参与卷积神经网络的训练,来最小化类内特征距离和最大化类间特征距离,以提高特征的鉴别能力,从而进一步提高图像识别性能,分析表明,本文算法可以获得更有助于样本分类的特征。其中,学习过程中采用均值分批迭代更新的策略实现样本均值平稳更新。结果该算法在MNIST数据集和CK+数据库上分别取得了99.53%和94.73%的平均识别率,与现有算法相比较有一定的提升。同时,与传统的损失函数Softmax loss和Hinge loss对比,采用LDloss的深度网络在MNIST数据集上分别提升了0.2%和0.3%,在CK+数据库上分别提升了9.21%和24.28%。结论本文提出一种新的融合判别式深度特征学习算法,该算法能有效地提高深度网络的可鉴别能力,从而提高图像识别精度,并且在测试阶段,与Softmax loss相比也不需要额外的计算量。相似文献

18.

A Vector Space Modeling Approach to Spoken Language Identification 总被引：1，自引：0，他引：1

Haizhou Li Bin Ma Chin-Hui Lee 《IEEE transactions on audio, speech, and language processing》2007,15(1):271-284

相似文献