期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

凌洁刘琚赵彩华杜军《电路与系统学报》2008,13(6)

本文利用带噪语音经特征基函数矩阵转换后所具有的稀疏特性,用最大似然估计方法对转换后得到的稀疏分量进行非线性压缩去噪,然后再经过反变换和重构恢复出原始语音信号的估计.特征基函数矩阵反映了语音数据本身的统计特性,因此具有很好的合理性和可取性.仿真结果表明利用稀疏编码方法能极大程度地抑制背景噪声,与小波消噪法相比优势明显. 相似文献

2.

基于中英文混合模型的语音识别研究

李伟李媛媛《电声技术》2011,35(7):42-44

针对目前汉语连续语音识别中英文识别问题,采用中英文混合建模的方法建立中英文混合模型.在分析已有语音识别系统的基础上,根据发音学的一些先验知识,提出一种基于主元音及英文音素序列混合的声学模型,同时利用最大似然规则训练出的声学模型,通过最小音素错误准则对声学模型进行区分性训练,更新得到最终的声学模型.在测试集上的结果表明,... 相似文献

3.

基于双层字典学习的单通道语音增强方法

下载免费PDF全文

孙林慧吴子皓谢可丽李平安《信号处理》2020,36(6):1001-1012

为了提升复杂噪声环境下语音增强效果,该文提出了一种基于双层字典学习的单通道语音增强方法。在训练阶段首先采用干净语音和噪声训练初始化特征子字典,然后基于区分性约束和抗混淆约束的优化函数训练双层联合字典,第一层字典表达语音信号和噪声的可区分分量,而第二层字典表达语音信号和噪声的易混淆成分。在测试阶段含噪语音在双层联合字典上投影得到稀疏系数矩阵,然后重构得到增强后的语音。该方法利用目标优化函数的约束性减少"交叉投影"现象的发生,降低了信号在联合字典的混淆,从而进一步提升了语音增强的效果。实验结果表明,从语谱图、全局信噪比(SNR)、主观语音质量评估(PESQ)和对数频谱距离(LSD)四个方面评价,相比于基于稀疏约束非负矩阵分解和改进的维纳滤波的语音增强方法,该方法具有更好的性能,能够更有效地去除噪声。相似文献

4.

自动发音错误检测中基于最大化F1值准则的区分性特征补偿训练算法

下载免费PDF全文

黄浩徐海华王羡慧吾守尔&# 斯拉木《电子学报》2015,43(7):1294-1299

为提高自动发音错误检测性能,提出一种区分性特征补偿训练算法.该方法将高斯后验概率矢量经过线性变换后作为偏移量补偿至传统的谱特征.将经过正确度标注的语音数据库上的发音错误检测F1值的最大化作为变换参数的训练准则.推导了目标函数对变换参数的偏导数公式,并利用无约束参数优化例程L-BFGS更新变换参数.发音错误检测实验表明该方法能够有效增大训练和测试集的F1值.并且训练和测试集的精确度、召回率也都有明显提高.在特征优化的基础上进行模型参数训练,检错性能较单独的区分性特征训练、单独的区分性模型训练都有进一步改进. 相似文献

5.

基于变换观测模型的粒子滤波跟踪算法

李春鑫《光电技术应用》2011,26(3):78-81

针对视频目标突变转向时产生的重尾问题,提出了一种变换观测模型的粒子滤波跟踪算法.该算法根据提出的变换准则,目标稳定运动时采用高斯分布观测似然函数,当目标突变转向时采用多变量拉普拉斯分布观测似然函数较好的逼近重尾分布,提高跟踪的精度.视频跟踪仿真试验表明,该算法是稳健的,能够对突变转向的运动目标进行有效、可靠地跟踪. 相似文献

6.

基于信号规整和稀疏变换的语音与音频分层编码方法

下载免费PDF全文

李晓明鲍长春贾懋 《电子学报》2015,43(7):1286-1293

基于语音和音频信号的固有周期性特征,本文构建了一种适合语音和音频信号的统一分析/合成模型,并分别在24kbps和32kbps码率下,实现了对宽带语音和音频信号的高质量分层编码.首先,本文将具有时变周期的输入信号规整为具有固定周期的信号,并对规整后的周期信号构建规整矩阵;其次,对规整矩阵的行和列分别进行调制叠接变换(MLT)和离散余弦变换(DCT),完成规整矩阵的稀疏化;最后,利用分带量化和矢量哈夫曼编码完成稀疏矩阵元素的量化和编码.主客观测试结果表明,本文所提方法的语音、音频及其混合信号的编码质量均优于同等速率下的ITU-T G.722.1和AMR-WB编码器. 相似文献

7.

采用超音段韵律特征联合短时频谱的语音转换

李力俞一彪《信号处理》2012,28(2):289-294

传统的语音转换方法往往着重于语音的声道特征和基频的转换,而忽视了其他的超音段韵律特征,这导致转换后的语音目标倾向性不够明显,合成语音自然度不高,不能很好地反应说话人个性化特征。本文在短时谱包络转换的基础上,加入了基频、语速、停顿、重音等多种超音段韵律特征进行转换处理,以提高语音转换性能。其中,采用基频目标模型对基音频率建模,然后运用高斯混合模型（GMM）训练得到转换规则,而语速、停顿、重音则采用基于单高斯统计分析的最大似然估计方法训练得到转换规则。实验结果表明,在加入超音段韵律特征转换之后,系统非常明显地提高了转换语音的目标倾向性和自然度。相似文献

8.

基于GMM的算法在语音检出系统中的应用研究

《现代电子技术》2015,(13):59-62

高斯混合模型(GMM)由于通过改变高斯的混合度,能够逼近任意概率分布,所以在语音识别领域应用广泛。对高斯混合模型的训练,常见的训练方法是最大似然估计(MLE),这种训练方法能最大程度拟合所有样本的分布,但没有考虑模型之间的相互影响,导致识别过程会出现混淆情况;区分性模型训练算法,适合应用于大数据量复杂组合类别的区分问题。这里提出采用的区分性模型训练方法,其原则是最小化分类错误风险,通过更精确细致地刻画不同模型之间的分类面,提升识别的效果。实验结果表明,该训练方法比最大似然估计的训练方法在多类别语音检出任务中具有更好的识别效果。相似文献

9.

基于生成对抗网络联合训练的语音分离方法

下载免费PDF全文

王涛全海燕《信号处理》2020,36(6):1013-1019

基于深度神经网络的语音分离方法大都在频域上进行训练,并且在训练过程中往往只关注目标语音特征,不考虑干扰语音特征。为此,提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入,保留了信号时延导致的相位信息。同时,利用对抗机制,使生成模型和判别模型分别训练目标语音和干扰语音的特征,提高了语音分离的有效性。实验中,采用Aishell数据集进行对比测试。结果表明,本文所提方法在三种信噪比条件下都有良好的分离效果,能更好地恢复出目标语音中的高频频段信息。相似文献

10.

一种改进的线性区分分析方法及其在汉语数码语音识别上的应用 总被引：1，自引：0，他引：1

史媛媛刘加刘润生《电子学报》2002,30(7):959-963

尽管汉语数码语音识别只涉及十个数字,但由于不同数字的发音存在相同或相似的声母或韵母,造成汉语数码语音之间的混淆性很大.采用通常的隐含马尔科夫模型(HMM)作为汉语数码语音识别模型难以得到很高的识别率.为了解决汉语数码之间的混淆问题,提高汉语数码语音识别性能,本文在隐含马尔科夫模型的状态层次上采用线性区分分析方法,将不同状态之间容易混淆的特征样本构成混淆模式类,针对混淆模式类进行线性区分分析.通过线性区分变换,在变换特征空间中仅保留那些能够有效区分该混淆类别的特征参数.这种基于状态的线性区分分析有效地提高了模型对混淆数码的区分能力.实验表明即使采用状态数很少的粗糙识别模型,也能很大幅度提高模型的识别性能;经过线性区分变换优化后的汉语数码识别模型,孤立汉语数码语音识别率可以达到99.32%. 相似文献

11.

Discriminative tonal feature extraction method in mandarin speech recognition

HUANG Hao ZHU Jie 《中国邮电高校学报(英文版)》2007,14(4):126-130

To utilize the supra-segmental nature of Mandarin tones, this article proposes a feature extraction method for hidden markov model (HMM) based tone modeling. The method uses linear transforms to project F0 (fundamental frequency) features of neighboring syllables as compensations, and adds them to the original F0 features of the current syllable. The transforms are discriminatively trained by using an objective function termed as "minimum tone error", which is a smooth approximation of tone recognition accuracy. Experiments show that the new tonal features achieve 3.82% tone recognition rate improvement, compared with the baseline, using maximum likelihood trained HMM on the normal F0 features. Further experiments show that discriminative HMM training on the new features is 8.78% better than the baseline. 相似文献

12.

Model Adaptation Using Discriminative Noise Adaptive Training Approach for New Environments

Ho‐Young Jung Byung‐Ok Kang Yunkeun Lee 《ETRI Journal》2008,30(6):865-867

A conventional environment adaptation for robust speech recognition is usually conducted using transform‐based techniques. Here, we present a discriminative adaptation strategy based on a multi‐condition‐trained model, and propose a new method to provide universal application to a new environment using the environment's specific conditions. Experimental results show that a speech recognition system adapted using the proposed method works successfully for other conditions as well as for those of the new environment. 相似文献

13.

基于谱稳定性特征的语音与笑声区分新方法 总被引：1，自引：0，他引：1

李艳雄贺前华陈楠齐朝晖《电子与信息学报》2008,30(6):1359-1362

该文提出一种采用谱稳定性作为特征参数的区分语音与笑声的新方法.通过分析语音与笑声的谱稳定性参数的特性,发现前者明显小于后者,这表明谱稳定性可以作为区分语音与笑声的特征参数.比较了采用谱稳定性参数、Mel频率倒谱系数、感知线性预测和基音频率等特征参数在相同实验条件下区分语音与笑声的性能.实验结果表明:在特定人和非特定人情况下,采用谱稳定性作为特征参数区分语音与笑声的正确率分别为90.74%和73.63%,其区分能力优于其它特征参数. 相似文献

14.

人脸语音动画中语音特征参数提取算法研究

林睿樊养余《现代电子技术》2011,34(6):74-77

人脸语音动画是虚拟现实领域的热点,语音特征参数提取是实现语音同步动画的前提和关键所在。为了能够提取鲁棒性更好的语音特征参数,在小波变换的理论基础上,借鉴MFCC特征参数的提取方法,运用表征语音动态特征的特征差分算法,提出了一种基于离散小波变换的语音特征参数（DWTMFCC）提取方法,并与反映语音情感特征的韵律参数相结合。通过基于LGB算法的VQ模型进行说话人语音识别,可以得到组合特征参数的识别率较高。相似文献

15.

基于核协同表示与鉴别投影的辐射源调制识别

李东瑾杨瑞娟李晓柏董睿杰《电子学报》2000,48(9):1695-1702

针对辐射源识别中的特征稳定性不高和低信噪比环境适应性不足等问题,提出了一种基于二次时频分布、核协同表示与鉴别投影的识别方法.首先,通过时频变换、稀疏域降噪和二次特征提取的预处理算法降低噪声干扰和特征冗余,以获取高稳定性的二次时频分布特征;然后,采用核协同表示和鉴别投影思想进行降维学习和字典学习,以提升数据低维表征和类间鉴别能力;最后,通过离线训练完成系统优化并用于分类验证.仿真结果表明,二次时频分布特征具备较高稳定性,识别方法具备较强鲁棒性、时效性和适应性;当信噪比为-10dB时,该方法对8类辐射源信号的整体平均识别率达到96.88%. 相似文献

16.

基于CHMM的语音识别仿真系统实现

李浩亮靳双燕贾伟伟《电声技术》2013,(12):75-78

介绍了一种基于连续M元高斯混合密度的隐马尔可夫模型（HMM）的非特定人孤立词语音识别仿真系统。通过研究模型状态数、训练时间以及特征参数选取对语音识别率的影响,得出HMM状态数取4,训练次数为20次,特征参数选取48维LPCC和MFCC的混合参数,可使语音识别系统对于汉语孤立词的识别率达到90％。相似文献

17.

Rank‐weighted reconstruction feature for a robust deep neural network‐based acoustic model

Hoon Chung Jeon Gue Park Ho‐Young Jung 《ETRI Journal》2019,41(2):235-241

In this paper, we propose a rank‐weighted reconstruction feature to improve the robustness of a feed‐forward deep neural network (FFDNN)‐based acoustic model. In the FFDNN‐based acoustic model, an input feature is constructed by vectorizing a submatrix that is created by slicing the feature vectors of frames within a context window. In this type of feature construction, the appropriate context window size is important because it determines the amount of trivial or discriminative information, such as redundancy, or temporal context of the input features. However, we ascertained whether a single parameter is sufficiently able to control the quantity of information. Therefore, we investigated the input feature construction from the perspectives of rank and nullity, and proposed a rank‐weighted reconstruction feature herein, that allows for the retention of speech information components and the reduction in trivial components. The proposed method was evaluated in the TIMIT phone recognition and Wall Street Journal (WSJ) domains. The proposed method reduced the phone error rate of the TIMIT domain from 18.4% to 18.0%, and the word error rate of the WSJ domain from 4.70% to 4.43%. 相似文献

18.

动态时间规正与差别子空间相结合变异语音识别的在线训练方法

吕成国韩纪庆王承发高文《信号处理》2005,21(1):102-105

应力影响下的变异语音(由于说话人受到重力加速度变化而产生)可以用动态时间规正与差别子空间相结合的方法进行识别,但是该方法空间开销很大,而且训练算法极为复杂。针对该方法提出特征矢量替换法和特征矢量求平均法两种基于聚类思想的简单在线训练方法,取一个较小的初始训练集,然后用在线训练的方法使系统识别率达到最大。实验结果表明,其中特征矢量求平均的在线训练方法非常有效,保证系统整体识别率的同时,大大减小了系统的空间开销,适合于训练数据有限的变异语音识别。相似文献