期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

屈丹张文林《电子与信息学报》2015,37(6):1350-1356

本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。相似文献

2.

优先度排序RBF神经网络在与文本无关说话人确认中的应用

邓浩江王守觉杜利民《电子与信息学报》2003,25(9):1153-1159

该文介绍了优先度排序径向基函数(PORBF)神经网络的结构与算法,并提出了将其应用于与文本无关说话人确认时的训练算法、似然度的计算方法以及识别规则。为了增强PORBF网络的泛化能力,该文用压缩矢量构造抑制样本集,提出了顺序选取、最近邻选取和最远距离选取等3种选择抑制样本集中说话人的方法,并对PORBF神经元的输出进行了等比递减加权.在相同条件下的与文本无关说话人确认实验中,传统的矢量量化方法的等差错率可达10.56％,而基于PORBF网络的确认系统使用最近邻选择方法构造抑制样本集,其等差错率可达6.83％;性能提高很多。相似文献

3.

基于最大似然子带线性回归的鲁棒语音识别

吕勇吴镇扬《信号处理》2010,26(1)

在实际环境中,训练环境和测试环境的失配会导致语音识别系统的性能急剧恶化.模型自适应算法是减小环境失配影响的有效方法之一,它通过少量自适应数据将模型参数变换到识别环境.最大似然线性回归是一种常用的基于变换的模型自适应算法,本文针对最大似然线性回归算法在数据较少时模型参数估计不准确的缺点,提出了基于最大似然子带线性回归的模型自适应算法.该算法将Mel滤波器组的全部通道划分为若干个子带,假设每个子带内多个通道的模型均值分量共享一个线性环境变换关系,以增加可用的数据.实验表明,本文算法可以较好地克服数据稀疏问题,只需要很少的数据即可取得较好的自适应效果,尤其适合于少量数据时的快速模型自适应. 相似文献

4.

基于三对角和共享分块对角转换矩阵的快速说话人自适应方法

下载免费PDF全文

丁国宏徐波《电子学报》2004,32(10):1709-1712

本文提出了两种在最大似然线性回归(MLLR)框架下实现快速说话人自适应的方法.这两种方法在本文中分别称为Log-谱域下基于三对角转换矩阵的说话人自适应(SATD)和倒谱域下基于共享分块对角转换矩孟加拉国说话人自适应(SASBD).这两种方法在一定先验知识的基础上采用较少的参数来描述说话人间的差异,因而只需要少量的自适应数据就可以得到参数的鲁棒估计.在以整词建模的孤立词识别系统和以三音子建模的孤立词识别系统上分别进行的测试表明所提出的方法相对传统的MLLR自适应方法有较快的自适应性能. 相似文献

5.

基于先验知识的三音子模型聚类结构自适应策略

董明刘润生《电子与信息学报》2007,29(9):2050-2053

该文提出了一种基于先验知识的三音子模型聚类结构自适应策略,可以在规模很小的自适应语音库条件下改善三音子声学模型的聚类结构使之更适合应用对象的协同发音特点。以基本声学模型训练过程中的三音子模型聚类结果作为先验知识的聚类中心,依据基本声学模型对自适应语音库的分割,按照最大似然准则迭代地重估新的聚类中心和模型聚类结构。实验表明:基于先验知识的三音子模型聚类结构自适应策略可以在不足两小时的自适应语音库上实现三音子模型聚类结构重估,在针对汉语母语说话人的英语声学模型实验中,该文的模型聚类结构自适应策略可以将系统识别率从74.59%提高到83.63%。相似文献

6.

高山阵地米波雷达测高方法研究

谢腾飞杨雪亚《火控雷达技术》2021,50(1):54-57

合成导向矢量最大似然算法对平坦阵地的米波雷达测高具有较高的精度,但在高山阵地下,会出现仰角空间谱模糊的现象,测高精度较低。鉴于此,本文提出了一种基于合成导向矢量最大似然算法的雷达变频测高方法,依据不同频点空间谱模糊的周期不同的特点,通过变频计算得到真实的目标仰角,仿真数据验证了该方法的有效性。相似文献

7.

语音识别中基于低秩约束的本征音子说话人自适应方法

张文林张连海陈琦李弼程《电子与信息学报》2014,36(4):981-987

该文提出一种基于低秩约束的本征音子(Eigenphone)说话人自适应方法。原始的本征音子说话人自适应方法在自适应语料充分时具有很好的效果,然而当自适应语料不足时,出现严重的过拟合现象,导致自适应后的系统可能比自适应前的系统还要差。首先,对协方差矩阵为对角阵的隐马尔可夫-高斯混合模型语音识别系统,推导出一种简化的本征音子矩阵估计算法;然后,对本征音子矩阵引入低秩约束,采用矩阵的核范数作为矩阵秩的凸近似,通过调节核范数的权重因子以有效控制自适应模型的复杂度;最后,给出一种加速近点梯度算法以求解新算法中引入的带有核范数正则项的数学优化问题。汉语连续语音识别的说话人自适应实验表明,引入低秩约束后,本征音子说话人自适应方法的自适应效果得到了明显提高,在5~50 s的自适应数据条件下,均取得了比最大似然线性回归后接最大后验(MLLR+MAP)自适应更佳的识别效果。相似文献

8.

复杂背景下声纹识别系统的研究方法综述

房安栋刘军万《电子世界》2013,(3):97-99

声纹识别是生物特征识别领域的一个重要分支。它采用语言数据自动地鉴定测试者身份。本文研究复杂背景下的声纹识别系统的设计与实现,首先,利用正交小波滤波器组来对信号进行预滤波,对语言信号的每个频率段进行细粒度去噪,提取出各频段小波系数,重构出语音信号;其次,在特征提取阶段,利用倒谱法计算出基音周期参数,通过Mel滤波器组将小波系数转换成Mel倒谱系数(MFCC),将得出的两种参数组成一个特征矢量作为声纹特征;最后声纹识别阶段,每一个说话人都由一个GMM表示,计算出特征矢量序列的每个似然函数,找到其中最大的说话人模型,即判定为说话人。相似文献

9.

基于空间相关性变换的声学模型训练

苏腾荣吴及王作英《电子与信息学报》2010,32(4):1003-1007

为了在语音识别中增强对不同语音单元之间的相关性的利用,该文基于空间相关性变换(Spatial Correlation Transformation,SCT)框架,提出一种新的模型训练算法,在说话人无关模型的训练中利用训练数据中的空间相关性进行模型参数重估。该算法对所有训练数据进行空间相关性变换,削弱数据间的空间相关性,使重估的模型更不依赖训练数据,以改善模型的性能。实验表明,基于空间相关性变换框架的模型训练方法与基于该框架的特征变换方法相结合,使系统的平均错误率相对基线系统下降了18%。相似文献

10.

分布式信源数据域直接位置估计方法

王大鸣任衍青逯志宇巴斌《电子与信息学报》2018,40(2):371-377

针对目前信号数据域直接位置估计方法对分布式信号源进行直接定位存在精度下降问题,该文提出分布式信源数据域直接位置估计方法。首先构建分布式信源直接位置估计模型,然后分别基于最大似然准则和特征结构分解思想给出分布式信源高精度直接位置估计的两种方法分布源最大似然估计方法和广义子空间方法。最后通过多维搜索完成对于分布式信源的直接位置估计。仿真分析表明,该文算法对分布式信源进行直接位置估计的精度较传统直接位置估计算法明显提升,能够在较低信噪比下逼近克拉美罗界;分布源最大似然估计方法在低信噪比下定位精度优于广义子空间方法,而广义子空间方法复杂度更低。相似文献

11.

基于加权子空间拟合的声源定位与跟踪方法

金乃高殷福亮陈喆《电子与信息学报》2008,30(9):2134-2137

麦克风阵列声源定位可为复杂环境下的说话人空间位置估计问题提供一种有效的解决方案。该文基于粒子滤波框架,提出了一种加权子空间拟合声源定位与跟踪方法。该方法将窄带子空间拟合算法的代价函数推广至宽带情形,构建了一种适用于宽带语音信号的似然函数,并结合说话人的运动模型估计声源的位置。计算机仿真与实测结果验证了该方法的有效性。相似文献

12.

最大后验估计和最近邻线性回归结合的说话人自适应方法

下载免费PDF全文

何磊武健方棣棠吴文虎《电子学报》2000,28(11):55-58

本文提出一种新的说话人自适应方法:最大后验(MAP)估计与最近邻线性回归(NNLR)结合的自适应,利用模型近邻信息和MAP自适应结果,建立线性回归模型,对没有自适应数据的模型完成模型调整.实验证明,NNLR要优于另一种用于MAP自适应框架的模型插值方法:向量域平滑(VFS). 相似文献

13.

基于特征语音的说话人自适应算法研究

朴春俊李玉萍韩永成《信息技术》2007,31(8):101-103

介绍了说话人自适应技术中的特征语音(Eigenvoice,EV)方法。用最大后验概率特征分解(Maximum a Posteriori Eigen-decomposition,MAPED)法来计算线性组合系数,代替了传统方法中的最大似然特征分解(Maximum Likelihood Eigen-decomposition,MLED)的方法。实验对这两种方法的性能进行了比较。结果证明使用MAPED这种方法比用MLED的方法错误识别率有一定的降低,增强了系统的鲁棒性。相似文献

14.

Speaker Adaptation Using ICA‐Based Feature Transformation

Ho‐Young Jung Mansoo Park Hoi‐Rin Kim Minsoo Hahn 《ETRI Journal》2002,24(6):469-472

Speaker adaptation techniques are generally used to reduce speaker differences in speech recognition. In this work, we focus on the features fitted to a linear regression‐based speaker adaptation. These are obtained by feature transformation based on independent component analysis (ICA), and the feature transformation matrices are estimated from the training data and adaptation data. Since the adaptation data is not sufficient to reliably estimate the ICA‐based feature transformation matrix, it is necessary to adjust the ICA‐based feature transformation matrix estimated from a new speaker utterance. To cope with this problem, we propose a smoothing method through a linear interpolation between the speaker‐independent (SI) feature transformation matrix and the speaker‐dependent (SD) feature transformation matrix. From our experiments, we observed that the proposed method is more effective in the mismatched case. In the mismatched case, the adaptation performance is improved because the smoothed feature transformation matrix makes speaker adaptation using noisy speech more robust. 相似文献

15.

采用长度规整MAP的说话人分割聚类

下载免费PDF全文

朱唯鑫郭武《信号处理》2016,32(7):859-865

本文首次提出了长度规整的最大后验估计(MAP)方法,并将其应用到说话人分割聚类中的交叉似然比(CLR)和T Test这两种度量距离上。传统的MAP方法需要在通用背景模型(UBM)基础上进行统计量的计算,进而对模型参数进行自适应偏移,因此偏移的程度与语音片段的长度正相关。当在度量两个长度不相同的语音片段的相似性时,传统的MAP方法会使得说话人模型刻画不准确,从而影响距离度量。本文在MAP过程中,根据语音的长度对相关因子进行规整,然后再进行模型参数的调整,从而使得模型参数与语音长度无关,更能体现说话人的身份信息。在中文多人电视访谈节目数据的分割聚类评测任务上,采用长度规整的MAP方法相对于传统方法都有明显提升,在CLR度量准则下分割聚类错误率相对下降了35%,在T Test度量准则下分割聚类错误率相对下降了107%。相似文献

16.

基于码本的说话人自适应方法 总被引：1，自引：0，他引：1

吕津赵明生王作英《电子学报》2001,29(4):456-460

本文提出了一种基于码本的说话人自适应方法.它可以将变换方法和Bayes估计法这两大类说话人自适应方法的优点有机的结合起来,既能实现快速的说话人自适应,还具有良好的一致渐进性.自适应过程可分为两个阶段:在第一阶段,用由大量参考说话人的语音码本构成的线性组合来逼近用户的语音码本.此时只需要很少的自适应训练数据就可以用基于Rosen梯度投影法的优化算法计算出线性组合中各码本的最佳权值.在第二阶段,码本的最佳线性组合被用作用户码本的先验估计值.随着更多自适应训练数据的获得,系统对用户码本进一步进行Bayes估计,从而可以实现累进的自适应.作者将该方法应用于说话人无关的连续汉语语音识别系统.一系列的对比实验表明该自适应方法很有前途. 相似文献

17.

Adaptation of hidden Markov model for telephone speech recognitionand speaker adaptation

Chien J.-T. Wang H.-C. 《Vision, Image and Signal Processing, IEE Proceedings -》1997,144(3):129-135

The authors propose a channel compensation method for the hidden Markov model (HMM) parameters in automatic speech recognition. The proposed approach is to adapt the existing reference models to a new channel environment by using a small amount of adaptation data. The concept of HMM parameter adaptation by incorporating the corresponding phone-dependent channel compensation (PDCC) vectors is applied to improve the performance of speech recognition. Two extended PDCC techniques are presented. One is based on the refinement of PDCC using vector quantisation. The other is based on the interpolation of compensation vectors. Both techniques are evaluated on the experiments on telephone speech recognition and speaker adaptation. The experimental results show that the performance can be significantly improved 相似文献

18.

A study on speaker adaptation of the parameters of continuousdensity hidden Markov models

Lee C.-H. Lin C.-H. Juang B.-H. 《Signal Processing, IEEE Transactions on》1991,39(4):806-814

For a speech-recognition system based on continuous-density hidden Markov models (CDHMM), speaker adaptation of the parameters of CDHMM is formulated as a Bayesian learning procedure. A speaker adaptation procedure which is easily integrated into the segmental k-means training procedure for obtaining adaptive estimates of the CDHMM parameters is presented. Some results for adapting both the mean and the diagonal covariance matrix of the Gaussian state observation densities of a CDHMM are reported. The results from tests on a 39-word English alpha-digit vocabulary in isolated word mode indicate that the speaker adaptation procedure achieves the same level of performance as that of a speaker-independent system, when one training token from each word is used to perform speaker adaptation. It shows that much better performance is achieved when two or more training tokens are used for speaker adaptation. When compared with the speaker-dependent system, it is found that the performance of speaker adaptation is always equal to or better than that of speaker-dependent training using the same amount of training data 相似文献