期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵力《电子器件》2018,41(4)

研究了修正Fukunaga-koontz变换在说话人识别中的应用方法。通过修正Fukunaga-koontz变换对说人语音特征空间进行了降维,并通过高斯混合模型进行说话人建模。采用NIST 2006年测试的1conv4w-1conv4w作为实验,对比了LDA方法与修正Fukunaga-koontz变换在说话人识别中的识别性能。结果证实,将修正Fukunaga-koontz变换用于说话人识别获得了理想的效果,与传统的LDA降维方法相比,识别性能得到了较大的提升。相似文献

2.

考虑亚像素配准误差的超分辨率图像复原

下载免费PDF全文

闫华刘琚《电子学报》2007,35(7):1409-1413

超分辨率图像复原作为第二代图像复原方向,已成为目前国际图像复原界的一个研究热点.一般来说,超分辨率图像复原是一个病态问题,可以结合图像的先验信息,使其成为良态的,这需要有效的规整化算法.但是,规整化参数的选择多数情况是通过经验确定的,且现有的一些计算规整化参数的方法又过于繁琐.本文讨论了亚像素配准误差引入的情况下噪声的统计模型,利用Miller规整的思想给出了简易可行的规整化参数计算方法.这种规整化参数计算方法能够自适应地根据配准误差和观测噪声局部调整由于配准误差导致的失真.仿真结果表明得到的规整化参数能使规整化算法有效收敛. 相似文献

3.

基于LPC分析的语音特征参数研究及其在说话人识别中的应用 总被引：3，自引：0，他引：3

张玲华郑宝玉杨震《南京邮电学院学报(自然科学版)》2005,25(6):1-6

对LPC（线性预测系数）参数及其派生参数进行了研究，重点讨论了各参数的计算方法，在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明，与LPC参数的派生参数相比，该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果；与直接使用LPC参数相比，该组合参数能够在运算量增加不明显的情况下改进系统的性能，特别是在测试音长度较短的情况下，对性能的改进尤为明显。相似文献

4.

采用长度规整MAP的说话人分割聚类

下载免费PDF全文

朱唯鑫郭武《信号处理》2016,32(7):859-865

本文首次提出了长度规整的最大后验估计(MAP)方法,并将其应用到说话人分割聚类中的交叉似然比(CLR)和T Test这两种度量距离上。传统的MAP方法需要在通用背景模型(UBM)基础上进行统计量的计算,进而对模型参数进行自适应偏移,因此偏移的程度与语音片段的长度正相关。当在度量两个长度不相同的语音片段的相似性时,传统的MAP方法会使得说话人模型刻画不准确,从而影响距离度量。本文在MAP过程中,根据语音的长度对相关因子进行规整,然后再进行模型参数的调整,从而使得模型参数与语音长度无关,更能体现说话人的身份信息。在中文多人电视访谈节目数据的分割聚类评测任务上,采用长度规整的MAP方法相对于传统方法都有明显提升,在CLR度量准则下分割聚类错误率相对下降了35%,在T Test度量准则下分割聚类错误率相对下降了107%。相似文献

5.

一种GMM对数似然得分变换方法

冷自强王金明《电子质量》2009,(1):8-9

基于高斯混合模型（GMM）的说话人识别方法通常采用对数似然得分作为测试时判定目标说话人的依据。文章在分析对数似然得分特点的基础上,提出了一种改进方法,提高了测试语音帧对于目标模型和非目标模型得分的相对差值。基于TIMIT数据库的实验证明了采用变换后似然得分的说话人识别系统比采用对数似然得分的系统具有更好的识别性能和抗噪声性能。相似文献

6.

采用因子分析和支持向量机的说话人确认系统

郭武戴礼荣王仁华《电子与信息学报》2009,31(2):302-305

在文本无关的说话人识别中,采用均值超向量作为特征向量的支持向量机系统性能已经超过了传统的混合高斯-通用背景模型系统,但是信道的影响在均值超向量上仍然存在。该文对因子分析算法进行修改后,可以解决均值超向量的信道问题,能够取得优于扰动属性映射的性能,更重要的是采用因子分析的系统的稳定性可以得到保证。在NIST 2006说话人测试数据库上,利用该文的方法能够取得等错误率6.0%。相似文献

7.

文本无关说话人确认中的一种新的评分规整方法

陈继旭刘明辉戴蓓蒨李辉《信号处理》2006,22(4):545-549

对于采用统一阈值的,基于高斯混合模型(GMM)的文本无关说话人确认系统,由于不同的话者模型的输出评分分布的不同,会影响到系统的确认性能,为此,需对输出评分进行规整。本文提出了一种新的评分规整方法-整体规整。整体规整同时考虑了不同测试语音和不同话者模型的差异,并在评分域做出调整,使得所有语音的输出评分具有相似的分布,从而使系统整体分类能力得以保证。在NIST’03电话语音库上进行的实验表明,采用了整体规整后的系统性能和传统的评分规整方法比较,有了明显提高。相似文献

8.

基于GMM非线性变换的说话人识别算法的研究

下载免费PDF全文

赵力《电子器件》2017,40(3)

针对与文本无关说话人识别GMM模型中,某些非目标模型的测试帧的模型得分可能会比较高,从而引起误判的问题。从帧似然概率的统计特性出发,提出了一种GMM非线性变换方法。该方法通过对每帧各模型的得分赋予不同的权值,使得得分高的模型权值大,得分低的模型权值小,由于目标模型得分高的帧要多于其它非目标模型,所以这样可以提高目标模型的总得分,降低非目标模型的得分,从而降低误判的可能。理论推导和实验结果表明,该变换方法能够提高GMM说话人识别的识别率。相似文献

9.

基于正弦谐波模型和BP神经网络的语音变换算法及实现 总被引：3，自引：1，他引：2

岳振军王浩张雄伟《信号处理》2005,21(Z1):208-211

提出利用语音的正弦谐波模型和BP神经网络实现语音变换算法.提取语音的基音频率,进行高斯建模和变换,实现说话人韵律特征的变换.提取语音的巴克域倒谱参数,作为说话人的频谱特征,送入BP神经网络进行训练,利用训练好的BP网络实现频谱特征的变换.给出了变换实现的系统框图,进行了仿真实验,利用ABX测试对实验结果进行了评测.测试结果表明文中所述算法,较好地实现了语音变换. 相似文献

10.

噪声背景下基于多模板矢量量化的与文本无关的话者辩识 总被引：1，自引：0，他引：1

沈春华徐柏龄《信号处理》2001,17(2):185-188

在话者辨识系统的实际应用中,导致系统识别率下降的根本原因是噪声的影响,它使得测试与训练条件不一致.本文针对实际环境中常见的加性背景噪声,提出了利用加入不同类型、不同信噪比噪声的含噪语音进行训练说话人的模型,每个说话人具有多个模板.实验结果表明,这种方法能够有效的提高系统的鲁棒性.文中还讨论了距离加权方法在话者辨识中的应用. 相似文献

11.

似然得分归一化及其在与文本无关说话人确认中的应用

邓浩江杜利民万洪杰《电子与信息学报》2005,27(7):1025-1029

该文研究了似然得分归一化方法的原理,建立了基于自适应GMM模型的说话人确认系统,并将非特定人的背景模型与特定人的cohort模型相结合,提出了混合归一化的方法。在电话语音条件下,该文比较了不同得分归一化方法对确认系统性能的影响。实验表明,在自适应GMM模型似然比得分的基础上,T-cohort与通用背景模型混合归一化能获得最佳识别效果。当错误拒绝率为5%时,该方法可以获得0.5%的错误接受率,远远低于采用通用背景模型归一化方法的2%。相似文献

12.

ZHAO Jian DONG Yuan ZHAO Xian-yu YANG Hao WANG Hai-la 《中国邮电高校学报(英文版)》2008,15(2):130-134

Speaker adaptive test normalization （ATnorm） is the most effective approach of the widely used score normalization in text-flldependent speaker verification, which selects speaker adaptive impostor cohorts with an extra development corpus in order to enhance the recognition performance. In this paper, an improved implementation of ATnorm that can offer overall significant advantages over the original ATnorm is presented. This method adopts a novel cross similarity measurement in speaker adaptive cohort model selection without an extra development corpus. It can achieve a comparable performance with the original ATnorm and reduce the computation complexity moderately. With the full use of the saved extra development corpus, the overall system performance can be improved significantly. The results are presented on NIST 2006 Speaker Recognition Evaluation data corpora where it is shown that this method provides significant improvements in system performance, with relatively 14.4% gain on equal error rate （EER） and 14.6% gain on decision cost function （DCF） obtained as a whole. 相似文献

13.

Speaker normalization for chinese vowel recognition in cochlear implants 总被引：1，自引：0，他引：1

Luo X Fu QJ 《IEEE transactions on bio-medical engineering》2005,52(7):1358-1361

Because of the limited spectra-temporal resolution associated with cochlear implants, implant patients often have greater difficulty with multitalker speech recognition. The present study investigated whether multitalker speech recognition can be improved by applying speaker normalization techniques to cochlear implant speech processing. Multitalker Chinese vowel recognition was tested with normal-hearing Chinese-speaking subjects listening to a 4-channel cochlear implant simulation, with and without speaker normalization. For each subject, speaker normalization was referenced to the speaker that produced the best recognition performance under conditions without speaker normalization. To match the remaining speakers to this "optimal" output pattern, the overall frequency range of the analysis filter bank was adjusted for each speaker according to the ratio of the mean third formant frequency values between the specific speaker and the reference speaker. Results showed that speaker normalization provided a small but significant improvement in subjects' overall recognition performance. After speaker normalization, subjects' patterns of recognition performance across speakers changed, demonstrating the potential for speaker-dependent effects with the proposed normalization technique. 相似文献

14.

模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别 总被引：4，自引：0，他引：4

吴晓娟韩先花聂开宝《电子与信息学报》2002,24(6):845-849

该文提出了一种将模糊C-均值聚类法与矢量量化法相结合进行说话人识别的方法。该算法将从语音信号中提取的 12阶 LPC(线性预测编码)倒谱系数作为待分类样本的 12个指标,先用矢量量化法求出每个说话人表征特征参数的码书,作为模糊聚类算法的聚类中心,最后将待识别的特征矢量以得到的码书为聚类中心,进行聚类识别。该算法所使用的特征参数较少,计算比较简单,但识别率较矢量量化法高。相似文献

15.

一种融合IB准则特征的说话人分段聚类方法

下载免费PDF全文

张力张连海许友亮《太赫兹科学与电子信息学报》2013,11(1):136-141

针对说话人分段与聚类算法中先验知识不足的问题,利用基于信息瓶颈(IB)准则和基于隐马尔科夫模型(HMM)/高斯混合模型(GMM)方法间的互补性,提出了一种基于特征层融合的说话人分段与聚类算法。该算法将基于IB准则算法的输出结果进行对数变换和降维处理;然后利用变换后的特征与传统梅尔频率倒谱系数(MFCC)特征分别训练说话人GMM模型,并在得分域对说话人类别的得分进行加权融合;根据融合的得分,进行基于HMM/GMM模型的说话人分段与聚类。实验表明,融合后的特征可以为系统提供更多的先验信息,比传统方法的误配率降低了1.2%。相似文献

16.

自适应并行模型组合的鲁棒语音身份识别算法

下载免费PDF全文

李聪葛洪伟《信号处理》2018,34(7):867-875

由于环境噪声的影响,实际应用中说话人识别系统性能会出现急剧下降。提出了一种基于高斯混合模型-通用背景模型和自适应并行模型组合的鲁棒性语音身份识别方法。自适应并行模型组合是一种噪声鲁棒性的特征补偿算法,能够有效减少训练环境与测试环境之间的不匹配现象,从而提高系统识别准确率和抗噪性能。首先,算法从测试语音中估计出噪声特征,然后用一个单高斯模型对噪声特征进行拟合得到噪声均值和协方差。最后,根据得出的噪声均值和协方差,调整训练好的高斯混合模型均值向量和协方差矩阵,使其尽可能地匹配测试环境。实验结果表明,该方法可以准确地重构干净语音的高斯混合模型参数,并且能够显著提高说话人识别的准确率,特别是在低信噪比情况下。相似文献

17.

基于码本的说话人自适应方法 总被引：1，自引：0，他引：1

吕津赵明生王作英《电子学报》2001,29(4):456-460

本文提出了一种基于码本的说话人自适应方法.它可以将变换方法和Bayes估计法这两大类说话人自适应方法的优点有机的结合起来,既能实现快速的说话人自适应,还具有良好的一致渐进性.自适应过程可分为两个阶段:在第一阶段,用由大量参考说话人的语音码本构成的线性组合来逼近用户的语音码本.此时只需要很少的自适应训练数据就可以用基于Rosen梯度投影法的优化算法计算出线性组合中各码本的最佳权值.在第二阶段,码本的最佳线性组合被用作用户码本的先验估计值.随着更多自适应训练数据的获得,系统对用户码本进一步进行Bayes估计,从而可以实现累进的自适应.作者将该方法应用于说话人无关的连续汉语语音识别系统.一系列的对比实验表明该自适应方法很有前途. 相似文献