期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张文林张连海陈琦李弼程《电子与信息学报》2014,36(4):981-987

该文提出一种基于低秩约束的本征音子(Eigenphone)说话人自适应方法。原始的本征音子说话人自适应方法在自适应语料充分时具有很好的效果,然而当自适应语料不足时,出现严重的过拟合现象,导致自适应后的系统可能比自适应前的系统还要差。首先,对协方差矩阵为对角阵的隐马尔可夫-高斯混合模型语音识别系统,推导出一种简化的本征音子矩阵估计算法;然后,对本征音子矩阵引入低秩约束,采用矩阵的核范数作为矩阵秩的凸近似,通过调节核范数的权重因子以有效控制自适应模型的复杂度;最后,给出一种加速近点梯度算法以求解新算法中引入的带有核范数正则项的数学优化问题。汉语连续语音识别的说话人自适应实验表明,引入低秩约束后,本征音子说话人自适应方法的自适应效果得到了明显提高,在5~50 s的自适应数据条件下,均取得了比最大似然线性回归后接最大后验(MLLR+MAP)自适应更佳的识别效果。相似文献

2.

基于本征音子说话人子空间的说话人自适应算法

屈丹张文林《电子与信息学报》2015,37(6):1350-1356

本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。相似文献

3.

基于最大似然可变子空间的快速说话人自适应方法

下载免费PDF全文

张文林牛铜张连海李弼程《电子与信息学报》2012,34(3):571-575

该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。相似文献

4.

基于码本的说话人自适应方法 总被引：1，自引：0，他引：1

下载免费PDF全文

吕津赵明生王作英《电子学报》2001,29(4):456-460

本文提出了一种基于码本的说话人自适应方法.它可以将变换方法和Bayes估计法这两大类说话人自适应方法的优点有机的结合起来,既能实现快速的说话人自适应,还具有良好的一致渐进性.自适应过程可分为两个阶段:在第一阶段,用由大量参考说话人的语音码本构成的线性组合来逼近用户的语音码本.此时只需要很少的自适应训练数据就可以用基于Rosen梯度投影法的优化算法计算出线性组合中各码本的最佳权值.在第二阶段,码本的最佳线性组合被用作用户码本的先验估计值.随着更多自适应训练数据的获得,系统对用户码本进一步进行Bayes估计,从而可以实现累进的自适应.作者将该方法应用于说话人无关的连续汉语语音识别系统.一系列的对比实验表明该自适应方法很有前途. 相似文献

5.

基于特征语音的说话人自适应算法研究

朴春俊李玉萍韩永成《信息技术》2007,31(8):101-103

介绍了说话人自适应技术中的特征语音(Eigenvoice,EV)方法。用最大后验概率特征分解(Maximum a Posteriori Eigen-decomposition,MAPED)法来计算线性组合系数,代替了传统方法中的最大似然特征分解(Maximum Likelihood Eigen-decomposition,MLED)的方法。实验对这两种方法的性能进行了比较。结果证明使用MAPED这种方法比用MLED的方法错误识别率有一定的降低,增强了系统的鲁棒性。相似文献

6.

基于自适应小生境混合遗传算法的说话人识别 总被引：4，自引：0，他引：4

下载免费PDF全文

林琳王树勋《电子学报》2007,35(1):8-12

为了解决传统高斯混合模型(Gaussian Mixture Model,GMM)对初值敏感,在实际训练中极易得到局部最优参数的问题,本文提出了一种GMM参数优化的新方法.将小生境技术与最大似然估计融入到遗传训练过程,形成了一种新的混合算法,缓解了遗传算法产生的"早熟"现象,提高了算法的局部搜索能力.采用自适应策略来控制交叉和变异算子,同时在适应度评价中融入了其他用户的区分性信息,提高了模型的分类精度,增强了GMM的泛化能力.实验表明,与传统和改进的两种方法相比,本文的方法都可以得到更优的模型参数,使得系统的识别率进一步提高. 相似文献

7.

基于FVQ/HMM的无教师说话人自适应

赵力邹采荣吴镇扬《电子学报》2002,30(7):967-969

本文提出了一种新的语音识别方法,它综合了VQ、HMM和无教师说话人自适应算法的优点,在每个状态通过用矢量量化误差值取代传统HMM的输出概率值来建立FVQ/HMM,同时采用基于模糊矢量量化的无教师自适应算法,来改变FVQ/HMM的各状态的码字,从而实现对未知说话人的码本适应.本文通过非特定人汉语数码(孤立和连续数码)语音识别实验,把该新的组合方法同基于CHMM的自适应和识别方法进行了比较,实验结果表明该方法的自适应和识别效果优于基于CHMM的方法. 相似文献

8.

基于自适应RBFN阵列的说话人识别

连翰汪峥王建军张立明《太赫兹科学与电子信息学报》2004,2(3):171-175

提出一种可用于说话人识别的自适应RBFN阵列。RBF网设计的核心在于确定网络中心的数目及位置，该自适应算法有效地融合了IOC与ROLS算法的优点，不仅能动态调节RBF网的隐节点数，还能使网络的数据中心自适应变化，很好地优化了网络的结构。用与文本无关的闭集说话人识别系统对该算法进行了验证，实验结果表明，该方法与传统的RBF算法相比，自适应RBF网具有较好的鲁棒性以及精简的网络结构等优点。相似文献

9.

基于子带滤波器组的宽带自适应天线旁瓣相消技术 总被引：1，自引：0，他引：1

下载免费PDF全文

赵永波水鹏朗张守宏《电子学报》2005,33(3):556-559

文[6]提出在数字移动通信中子带滤波器组处理可以提高不同阵元信号的相关性,从而能改善自适应阵列抑制码间干扰(ISI)和共信道干扰(CCI)的能力.在文[6]的基础上,本文研究了子带滤波器组在宽带自适应天线旁瓣相消中的应用,对其原理进行了理论分析,提出了有效的子带处理方法.经研究表明,子带滤波器组处理能有效增加主、辅助天线信号的相关性,从而提高系统干扰相消比.而且适当的过采样能使系统干扰相消比进一步提高.计算机仿真结果和实测雷达数据处理结果证实了子带处理方法的有效性和理论分析的正确性. 相似文献

10.

真实环境中基于子帧分析的多说话人定位算法

蔡卫平唐珺《长江信息通信》2021,34(3):82-85

针对真实环境中的多说话人定位问题,提出一种基于子帧分析的多声源定位算法。该算法将一帧语音信号分为8个子帧,利用每个子帧信号计算相位变换加权的可控响应功率函数,分别搜索其最大值得到声源位置的子帧估计。由于语音信号在时域具有稀疏性,这些估计值对应多个声源的位置。利用会聚聚类算法将子帧估计值分为若干类,然后用平均子帧可控响应功率函数对估计值进行评价,得到最终的声源位置估计。实验表明,在2~3个说话人的情况下,该算法比传统算法的定位性能有较大幅度提高。相似文献

11.

Fast speaker adaptation using extended diagonal linear transformation for deep neural networks

Donghyun Kim Sanghun Kim 《ETRI Journal》2019,41(1):109-116

This paper explores new techniques that are based on a hidden‐layer linear transformation for fast speaker adaptation used in deep neural networks (DNNs). Conventional methods using affine transformations are ineffective because they require a relatively large number of parameters to perform. Meanwhile, methods that employ singular‐value decomposition (SVD) are utilized because they are effective at reducing adaptive parameters. However, a matrix decomposition is computationally expensive when using online services. We propose the use of an extended diagonal linear transformation method to minimize adaptation parameters without SVD to increase the performance level for tasks that require smaller degrees of adaptation. In Korean large vocabulary continuous speech recognition (LVCSR) tasks, the proposed method shows significant improvements with error‐reduction rates of 8.4% and 17.1% in five and 50 conversational sentence adaptations, respectively. Compared with the adaptation methods using SVD, there is an increased recognition performance with fewer parameters. 相似文献

12.

A weakly supervised large margin domain adaptation method for isolated handwritten digit recognition

《Journal of Visual Communication and Image Representation》2016

Learning handwriting categories fail to perform well when trained and tested on data from different databases. In this paper, we propose a novel large margin domain adaptation algorithm which is able to learn a transformation between training and test datasets in addition to adapting the parameters of classifier using a few or even no training labeled samples from target handwriting dataset. Additionally, we developed a framework of ensemble projection feature learning for datasets representation as a front end for our algorithm to utilize the abundant unlabeled samples in target domain. Experiments on different handwritten digit datasets adaptations demonstrate that the proposed large margin domain adaptation algorithm achieves superior classification accuracy comparing with the state of the art methods. Quantitative evaluation of the proposed algorithm shows that semi-supervised adaptation utilizing one sample per class of target domain set reduces the error rates by 64.72% comparing with a corresponding SVM classifier. 相似文献

13.

Variational level set method for image segmentation with simplex constraint of landmarks

《Signal Processing: Image Communication》2020

Landmarks are prior image features for a variety of computer vision tasks. In the image processing domain, research on image segmentation methods has always been a significant topic. Due to the image characteristics of heterogeneous nature, lack of clear boundaries, noise and so on, accurate segmentation of the image is still a challenge. In this paper, utilizing a level set framework and the simplex constraint, preferred image point landmarks are combined into a variational segmentation model to enforce the contour evolve with prior points. Then the alternating minimization algorithm of the proposed model is designed, meanwhile the landmarks constraints are doubled ensured with simplex projection. Finally, experiments on many synthetic and real-world images were implemented. Comparing with other state-of-the-art segmentation variational models, the most striking result to emerge from the data is that the proposed method has higher segmentation performance. Benefiting from appropriate point landmarks, the proposed segmentation method can tackle noisy, weak edges and corrupted area images effectively and robustly. 相似文献

14.

运动目标检测的l₀群稀疏RPCA模型及其算法

下载免费PDF全文

周伟孙玉宝刘青山吴敏《电子学报》2016,44(3):627-632

经典的鲁棒主成分分析(Robust Principal Component Analysis,RPCA)目标检测算法使用l₁范数逐一判别每一像素点是否属于运动目标,未能考虑到运动目标在空间分布的连续性,不利于提升运动目标检测的鲁棒性.本文提出了一种基于l₀群稀疏RPCA模型的运动目标检测方法.首先运用Ncuts算法进行区域过分割,生成多个同性区域,将其作为群稀疏约束的分组信息;第二步构造基于l₀群稀疏RPCA模型,运用群稀疏准则判别过分割后的各同性区域是否为运动目标,采用交替方向乘子算法对模型进行快速求解,约束过分割形成的同性区域具有相同检测结果,进而将背景环境和运动前景分离,能够更加准确地度量运动目标的区域边界,且对复杂的背景扰动更加鲁棒,达到了运动目标鲁棒检测的目的. 相似文献

15.

一种应用于高阶数据修复的非负稀疏Tucker分解算法

张志伟马杰夏克文李昱乐《光电子．激光》2017,28(7):773-779

针对传统的张量填充算法对于不满足低秩条件的张量填充效果难以保证,本文采用张量分解的方法实现缺失张量的修复,即对传统Tucker分解算法进行改造,在其目标函数中增加对核心张量和系数矩阵的非负性以及核心张量的稀疏性约束,再利用凸优化理论中的交替近端梯度算法(APGM)对目标函数进行迭代寻优, 在分解的同时实现缺失数据点的填充。医学图像、彩色图像和视频图像的修复结果表明,本文算法能够对高阶非负张量的缺失实现较好地修复,修复的视觉效果和技术指标都优于当前主流算法。相似文献