期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘文举孙兵钟秋海《电子学报》2005,33(7):1230-1233

识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%. 相似文献

2.

基于小波变换的鲁棒型特征提取及说话人识别 总被引：4，自引：0，他引：4

芮贤义俞一彪《电路与系统学报》2005,10(5):129-132

说话人识别系统在实际应用中面临的主要困难之一是鲁棒性问题,干净语音环境下识别率很高的说话人识别系统,在有噪语音环境下识别性能显著降低。解决这一问题的方法之一是寻找具有鲁棒性的特征参数。本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的鲁棒型特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在加性高斯白噪声环境下进行的识别实验结果表明,本文提出的特征提取算法可以有效地提高说话人识别系统在噪声环境下的识别性能。相似文献

3.

基于稀疏组LASSO约束的本征音子说话人自适应

屈丹张文林《通信学报》2015,36(9):47-54

本征音子说话人自适应方法在自适应数据量不足时会出现严重的过拟合现象,提出了一种基于稀疏组LASSO约束的本征音子说话人自适应算法。首先给出隐马尔可夫—高斯混合模型下本征音子说话人自适应的基本原理;然后将稀疏组LASSO正则化引入到本征音子说话人自适应,通过调整权重因子控制模型的复杂度,并通过一种加速近点梯度的数学优化算法来实现;最后将稀疏组LASSO约束的自适应算法与当前多种正则化约束的自适应方法进行比较。汉语连续语音识别的说话人自适应实验表明,引入稀疏组LASSO约束后,本征音子说话人自适应方法的性能得到了明显提高,且稀疏组LASSO约束方法优于l1、l2和弹性网正则化方法。相似文献

4.

听觉特性和语谱特性在说话人识别中的应用 总被引：1，自引：1，他引：0

王红玲张飞云《电声技术》2009,33(6):57-59

大多数说话人识别系统当由实验室走向实际应用时,环境噪声的存在会造成其识别性能下降。为了提高噪声环境下说话人识别系统的识别性能,将基于听觉特性和语谱特性的语音增强技术作为预处理器,首先对语音信号进行降噪处理,提高输入信号的信噪比。实验证明,经过降噪处理的语音信号送入说话人识别系统,提高了系统的识别性能。相似文献

5.

采用非监督得分规整和因子分析的说话人确认

郭武李轶杰戴礼荣王仁华《电子学报》2009,37(4):776-779

在文本无关的说话人确认中,规整算法能够有效地调整测试得分的分布.另外,利用前面已经得到的测试语句的得分来调整规整的参数可以取得更好的效果,这种规整叫做非监督得分规整.在本文中,借用开发集得分来建立说话人和冒认者得分的两个先验高斯分布函数,在实际的测试中,利用最大后验概率准则来对规整的模型参数进行调整.在采用因子分析的情况下,在NIST 2006说话人识别测试1conv4w-1conv4w数据库上,能够取得等错误率5.26%. 相似文献

6.

循环相关匹配滤波器设计 总被引：10，自引：0，他引：10

李虎生刘加刘润生《电子学报》2003,31(1):103-108

在谱相关分析的基础上,讨论了对循环平稳信号进行最佳滤波的问题,推导得到了基于最大输出信噪比准则的循环相关匹配滤波器的解析表式.然而,由于该滤波器性能与所选取的循环频率是相关的,单循环频率循环相关匹配滤波器存在固有的缺陷-信号能量利用不充分.为此,研究了多循环频率循环相关匹配滤波器组的设计方法,在最大输出信噪比准则约束下确定了滤波器组的优化结构.仿真实验比较了谱相关分析方法和循环相关匹配滤波方法,对调幅信号和BPSK信号的仿真实验结果证实了文章理论分析得到的结果. 相似文献

7.

声纹识别的应用与矢量量化算法研究

石柱《电声技术》2006,(10):44-48

针对声纹识别算法中的矢量量化方法,给出一种新的初始码本选择策略:超球面极值选择法;对提出的新策略进行性能分析,证明该方法在矢量量化码本训练过程中收敛速度快,不存在振荡点与空胞腔问题,计算量小,易于实现;应用此策略实现了基于矢量量化的说话人识别系统,与传统选择策略的系统识别结果进行统计比较,结果表明由改进超球面极值选择法得到的说话人矢量量化码本,识别性能好,具有可应用价值。相似文献

8.

基于本征音子说话人子空间的说话人自适应算法

屈丹张文林《电子与信息学报》2015,37(6):1350-1356

本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。相似文献

9.

基于码本的说话人自适应方法 总被引：1，自引：0，他引：1

吕津赵明生王作英《电子学报》2001,29(4):456-460

本文提出了一种基于码本的说话人自适应方法.它可以将变换方法和Bayes估计法这两大类说话人自适应方法的优点有机的结合起来,既能实现快速的说话人自适应,还具有良好的一致渐进性.自适应过程可分为两个阶段:在第一阶段,用由大量参考说话人的语音码本构成的线性组合来逼近用户的语音码本.此时只需要很少的自适应训练数据就可以用基于Rosen梯度投影法的优化算法计算出线性组合中各码本的最佳权值.在第二阶段,码本的最佳线性组合被用作用户码本的先验估计值.随着更多自适应训练数据的获得,系统对用户码本进一步进行Bayes估计,从而可以实现累进的自适应.作者将该方法应用于说话人无关的连续汉语语音识别系统.一系列的对比实验表明该自适应方法很有前途. 相似文献

10.

基于支持向量机的说话人辨认研究 总被引：10，自引：0，他引：10

侯风雷王炳锡《通信学报》2002,23(6):61-67

支持向量机是统计学理论的一个重要的学习方法，也是解决模式识别问题的一个有力的工具，本文提出了用支持向量机来解决说话人辨认问题。结合语音信号的特点，解决了大数据量情况下支持向量机的训练问题。支持向量机对两类的分类问题有着突出的优势，本文用两种判决规则将两类问题应用到多类的识别问题。用支持向量机实现了一个与文本无关的说话人辨认系统，实验表明，本方法有良好的效果。相似文献

11.

Verification effectiveness in open-set speaker identification

Ariyaeeinia A.M. Fortuna J. Sivakumaran P. Malegaonkar A. 《Vision, Image and Signal Processing, IEE Proceedings -》2006,153(5):618-624

Verification effectiveness in open-set, text-independent speaker identification is the authors' primary subject of concern. The study includes an analysis of the characteristics of this mode of speaker recognition and the potential causes of errors. The use of well-known score normalisation techniques for the purpose of enhancing the reliability of the process is described and their relative effectiveness is experimentally investigated. The experiments are based on the dataset proposed for the 1-speaker detection task of the NIST Speaker Recognition Evaluation 2003. On the basis of experimental results, it is demonstrated that significant benefits are achieved by using score normalisation in open-set identification, and that the level of this depends highly on the type of approach adopted. The results also show that better performance can be achieved by using the cohort normalisation methods. In particular, the unconstrained cohort method with a relatively small cohort size appears to outperform all other approaches 相似文献

12.

基于VEMAP的说话人识别鲁棒性研究

黄文娜彭亚雄《电声技术》2016,40(11):44-47

为了改善发声力度变化对说话人识别系统性能的影响.针对不同发声力度下语音信号的分析,提出了使用发声力度最大后验概率(Vocal Effort Maximum A Posteriori,VEMAP)自适应方法更新基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的说话人识别系统模型.实验表明,所提出的方法使不同发声力度下系统EER％降低了88.45％与85.16％,有效解决了因发声力度变化引起的训练语音与测试语音音量失配,从而导致说话人识别性能降低的问题,改善说话人识别系统性能效果显著. 相似文献

13.

Fast speaker adaptation using extended diagonal linear transformation for deep neural networks

Donghyun Kim Sanghun Kim 《ETRI Journal》2019,41(1):109-116

This paper explores new techniques that are based on a hidden‐layer linear transformation for fast speaker adaptation used in deep neural networks (DNNs). Conventional methods using affine transformations are ineffective because they require a relatively large number of parameters to perform. Meanwhile, methods that employ singular‐value decomposition (SVD) are utilized because they are effective at reducing adaptive parameters. However, a matrix decomposition is computationally expensive when using online services. We propose the use of an extended diagonal linear transformation method to minimize adaptation parameters without SVD to increase the performance level for tasks that require smaller degrees of adaptation. In Korean large vocabulary continuous speech recognition (LVCSR) tasks, the proposed method shows significant improvements with error‐reduction rates of 8.4% and 17.1% in five and 50 conversational sentence adaptations, respectively. Compared with the adaptation methods using SVD, there is an increased recognition performance with fewer parameters. 相似文献

14.

基于EBF网络的非线性特征映射器及其在鲁棒话者识别中的应用

李昕郑宇费敏锐《信号处理》2003,19(3):256-261

话者识别系统的性能在实际环境中往往会有很大程度的降低。本文中提出了一种新的基于EBF神经网络的特征映射器,试图克服上述问题。本文通过训练EBF神经网络来构建一个映射器,以失真的语音特征和未失真的语音特征分别作为其输入和相应的理想输出。也就是说,网络将在以失真倒频谱为输入的情况下,给出未失真的倒频谱。在特征恢复阶段,将失真的语音特征通过该特征映射器即可复原成未失真语音特征。这些复原后的语音特征就可以作为未失真语音来对话者模型进行测试。本文通过包含有258个话者的TIMIT和NTIMIT语音集对上述思路进行了试验,实验表明该特征映射器可以显著地改善识别性能。相似文献

15.

Bootstrap and aggregating VQ classifier for speaker recognition 总被引：1，自引：0，他引：1

Youn Jeong Kyung Hwang Soo Lee 《Electronics letters》1999,35(12):973-974

A bootstrap and aggregating (bagging) vector quantisation (VQ) classifier is proposed for speaker recognition. This method obtains multiple training data sets by resampling the original training data set, and then integrates the corresponding multiple classifiers into a single classifier. Experiments involving a closed set, text-independent and speaker identification system are carried out using the TIMIT database. The proposed bagging VQ classifier shows considerably improved performance over the conventional VQ classifier 相似文献

16.

Speaker normalization for chinese vowel recognition in cochlear implants 总被引：1，自引：0，他引：1

Luo X Fu QJ 《IEEE transactions on bio-medical engineering》2005,52(7):1358-1361

Because of the limited spectra-temporal resolution associated with cochlear implants, implant patients often have greater difficulty with multitalker speech recognition. The present study investigated whether multitalker speech recognition can be improved by applying speaker normalization techniques to cochlear implant speech processing. Multitalker Chinese vowel recognition was tested with normal-hearing Chinese-speaking subjects listening to a 4-channel cochlear implant simulation, with and without speaker normalization. For each subject, speaker normalization was referenced to the speaker that produced the best recognition performance under conditions without speaker normalization. To match the remaining speakers to this "optimal" output pattern, the overall frequency range of the analysis filter bank was adjusted for each speaker according to the ratio of the mean third formant frequency values between the specific speaker and the reference speaker. Results showed that speaker normalization provided a small but significant improvement in subjects' overall recognition performance. After speaker normalization, subjects' patterns of recognition performance across speakers changed, demonstrating the potential for speaker-dependent effects with the proposed normalization technique. 相似文献

17.

文本无关说话人确认中的一种新的评分规整方法

陈继旭刘明辉戴蓓蒨李辉《信号处理》2006,22(4):545-549

对于采用统一阈值的,基于高斯混合模型(GMM)的文本无关说话人确认系统,由于不同的话者模型的输出评分分布的不同,会影响到系统的确认性能,为此,需对输出评分进行规整。本文提出了一种新的评分规整方法-整体规整。整体规整同时考虑了不同测试语音和不同话者模型的差异,并在评分域做出调整,使得所有语音的输出评分具有相似的分布,从而使系统整体分类能力得以保证。在NIST’03电话语音库上进行的实验表明,采用了整体规整后的系统性能和传统的评分规整方法比较,有了明显提高。相似文献

18.

应用说话人聚类技术改善语言辨识系统识别率

张强屈丹侯风雷王炳锡《电声技术》2007,31(3):44-48

说话人差异是影响语言辨识系统性能的一个重要方面.采用说话人聚类技术对训练数据进行了预分类,以此为基础训练各种语言模型,得到聚类后的语言辨识系统.高斯混合模型、高斯混合模型-全局背景模型和遍历隐马尔可夫模型3种语言模型的实验证明,这种方法是有效的,它普遍地减小了说话人差异对语言辨识的影响,提高了语言辨识率. 相似文献

19.

基于模糊分类器及多层前馈神经网络混合结构的说话人辨认 总被引：3，自引：0，他引：3

张玲华杨震郑宝玉《通信学报》2005,26(11):68-75

提出了基于模糊超椭球聚类算法的说话人辨认新方法。该算法首先将某一类的训练数据分成若干子类, 对每一子类在其中心周围定义具有超椭球区域的模糊规则。实验表明,该系统可以较快的聚类速度取得与HMM 相当的识别效果。进一步的研究表明,基于模糊超椭球聚类算法的说话人辨认系统与传统的基于HMM的识别方法存在一个共同的缺点,即抗噪性能较差。为此,通过引入多层前馈神经网络(MLFNN)与模糊超椭球分类器构成混合模型,使系统的识别性能和抗噪能力显著提高。相似文献

20.

Dysarthric speaker identification with different degrees of dysarthria severity using deep belief networks

Aref Farhadipour Hadi Veisi Mohammad Asgari Mohammad Ali Keyvanrad 《ETRI Journal》2018,40(5):643-652

Dysarthria is a degenerative disorder of the central nervous system that affects the control of articulation and pitch; therefore, it affects the uniqueness of sound produced by the speaker. Hence, dysarthric speaker recognition is a challenging task. In this paper, a feature-extraction method based on deep belief networks is presented for the task of identifying a speaker suffering from dysarthria. The effectiveness of the proposed method is demonstrated and compared with well-known Mel-frequency cepstral coefficient features. For classification purposes, the use of a multi-layer perceptron neural network is proposed with two structures. Our evaluations using the universal access speech database produced promising results and outperformed other baseline methods. In addition, speaker identification under both text-dependent and text-independent conditions are explored. The highest accuracy achieved using the proposed system is 97.3%. 相似文献