期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈凌辉凌震华戴礼荣《模式识别与人工智能》2013,26(3):254-259

提出一种基于话者无关模型的说话人转换方法.考虑到音素信息共同存在于所有说话人的语音中,假设存在一个可以用高斯混合模型来描述的话者无关空间,且可用分段线性变换来描述该空间到各说话人相关空间之间的映射关系.在一个多说话人的数据库上,用话者自适应训练算法来训练模型,并在转换阶段使用源目标说话人空间到话者无关空间的变换关系来构造源与目标之间的特征变换关系,快速、灵活的构造说话人转换系统.通过主观测听实验来验证该算法相对于传统的基于话者相关模型方法的优点. 相似文献

2.

基于多微商核函数的SVM话者确认

许敏强戴蓓蒨刘青松许东星《数据采集与处理》2011,26(5)

给出了一种基于多微商核函数(MDK)的结合高斯混合模型(GMM)和支持向量机(SVM)的方法,并应用于SVM文本无关话者确认。从GMM话者语音特征概率分布出发,用多阶微商描述GMM概率分布,将GMM和SVM结合的问题转化为用多阶微商建立SVM话者模型的问题。首先对说话人语音进行基于因子分析的参数域失配补偿,用GMM描述失配补偿后的话者语音特征的概率分布;然后对GMM求多阶微商;最后构建多微商核函数,建立多SVM话者模型。在NIST’01 2min-1min话者确认数据库上的实验表明,基于多微商核函数的SVM话者确认系统性能优于基于失配补偿的GMM系统,也比基于失配补偿的Fisher核函数SVM话者系统和基于失配补偿的Kullback-Leibler(KL)距离SVM话者系统有较大的提高。相似文献

3.

基于压缩域特征话者识别的电视节目分类检索

吴飞庄越挺郑科刘骏伟潘云鹤《模式识别与人工智能》2002,15(1)

本文提出在压缩域上直接对MPEG音频信号进行分析,达到电视节目实时分析检索目的.算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注相似文献

4.

基于多码本矢量量化的非限定文本的联机话者辨认方法

马继涌高文姚鸿勋《计算机研究与发展》1999,36(6):712-716

传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定．为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本．这些码本是采用逐渐减小误识率的优化过程得到的．为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法．同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了４４％的识别计算量．这些方法大大增加了系统的识别速度和鲁棒性．文中比较了用ＰＬＰ分析和ＬＰＣ倒谱分析进行话者辨认的识别结果．相似文献

5.

噪声环境下话者识别系统的特征提取

王蕾《数字社区&智能家居》2008,(8):784-785

重点研究在噪声环境下,话者识别中语音信号的特征提取。将能减化信号,消除较小分量而保留信号的基本特征的数学形态滤波器良好的滤波性应用在一维语音信号的处理中。并在噪声环境下,应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括线性预测倒谱系数、MEL倒谱系数、语音动态参数、激励源特征等,对这些参数进行分析和比较．以达到话者识别的目的。相似文献

6.

噪声环境下话者识别系统的特征提取

WANG Lei 《数字社区&智能家居》2008,(22)

重点研究在噪声环境下,话者识别中语音信号的特征提取。将能减化信号,消除较小分量而保留信号的基本特征的数学形态滤波器良好的滤波性应用在一维语音信号的处理中。并在噪声环境下,应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括线性预测倒谱系数、MEL倒谱系数、语音动态参数、激励源特征等,对这些参数进行分析和比较,以达到话者识别的目的。相似文献

7.

基于多码本矢量量化的非限定文本的联机话者辨认方法

马继涌高文姚鸿勋《计算机研究与发展》1999,36(6):712-716

传统的利用话者的一个时期的语音作为训练语音,进行语者码本训练的方法,识别系统往往不够稳定。为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个语者具有多个码本。这些码本是采用逐渐减小误识率的优化过程得到的。为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法。相似文献

8.

VQ话者模型中失真测度的鲁棒性研究

方绍武戴蓓倩《数据采集与处理》2000,15(2):157-161

文中研究表明,反映说话人特征信息的特征参数矢量的各个分量通常具有不同的分布,对正确识别说话人身份的有效性是有差别的。文中将这种有效性差别作为权重矢量反映到失真测度计算公式中,提出了一种新的失真测度,即方差归一化失真测度可有效提高话者识别系统的识别性能。进一步的实验还表明,该失真测度能提高话者识别系统的时间鲁棒性。文中同时还给出了适合于话者识别的参数归正方法：帧内幅度归正。相似文献

9.

基于因子分析信道失配补偿的SVM话者确认方法

吴德辉李辉刘青松戴蓓蒨《模式识别与人工智能》2010,23(1):59-64

针对信道失配和统计模型区分性不足而导致话者确认性能下降问题,文中提出一种将因子分析信道失配补偿与支持向量机模型相结合的文本无关话者确认方法。在SVM话者模型前端采用高斯混合模型-背景模型(GMM-UBM)方法对语音特征参数进行聚类和升维,并利用因子分析(FA)方法,对聚类获得的超矢量进行信道补偿后作为基于SVM话者确认的输入特征,从而有效解决SVM用于文本无关话者确认的大样本、升维问题,以及信道失配对性能影响问题。在NIST 06数据库上实验结果表明,文中方法比未做失配补偿的GMM-UBM系统、GMM-SVM系统在等误识率上有50%以上的改善,比做了FA失配补偿的GMM-UBM系统也有15。8%的改善。相似文献

10.

基于子带矢量量化的鲁棒性话者模型的设计

方绍武戴蓓倩徐文盛李辉《计算机工程与应用》2000,36(3):15-17

话音识别系统的时间鲁棒性是影响话者识别系统实用化的关键问题之一。为了提高系统的时间鲁棒性,文章提出了基于子带矢量量化（ＳＢＶＱ）的话者模型。该话者模型由对应语音文本不同频段的各个子带上的矢量量化码本（ＳＢＶＱ码本）构成。ＳＢＶＱ话者模型反映了不同频段对话者识别系统性能的不同影响,并可将时间间隔等因素对系统性能的影响局限在某个子带内从而提高模型的时间鲁棒性。识别时,利用ＢＰ型人工神经网络（ＢＰＮＮ）对训练数据在各个子带上的量化误差进行拟合可进一步提升系统的性能。实验表明,文章提出的ＳＢＶＱ话者模型具有较好的时间鲁棒性。相似文献

11.

The Prototype Model in Speaker Identification by Human Listeners

Yizhar Lavner Judith Rosenhouse Isak Gath 《International Journal of Speech Technology》2001,4(1):63-74

Little is known about the perceptual processes of speaker identification and their relationship to the acoustic features of the speaker's voice. A study of speaker perception and identification by psychoacoustic experiments was carried out. Twenty male speakers were recorded and thirty listeners participated in the experiments. Statistical analysis of the results suggests that the prototype model is appropriate for explaining the process of speaker identification. The most important features for speaker identification were the fundamental frequency, the third and fourth formants, and the closing phase of the glottal wave. For different listeners, different sets of features were found to be significant for coding speaker identity. 相似文献

12.

一种基于K-SVD的说话人识别方法

马振张雄伟杨吉斌《计算机工程与应用》2012,48(34):112-115,135

为了充分提取语音中的个人特征信息,类比矢量量化,提出了一种基于K-均值奇异值分解(K-SVD)的说话人识别方法。利用K-SVD训练得到的字典可较好地保存语音信号中的个人特征信息。利用这一特性,通过K-SVD从训练数据中提取包含说话人个人特征信息的字典,利用该字典实现说话人识别。相对于传统方法,该方法能够更好地利用语音的稀疏性保存语音中的个人特征信息并减小重构误差。实验仿真结果表明,与基于矢量量化的说话人识别方法相比,该方法在多说话人的情况下具有更好的识别率,具有更高的实用价值。相似文献

13.

基于共性特征选择的短时说话人识别方法

下载免费PDF全文

肖星星冯瑞《计算机工程》2012,38(24):171-174

现有说话人识别方法在短时语音条件下识别性能明显下降。为此,提出一种基于共性特征选择的短时说话人识别方法。利用说话人语音数据得到高斯混合模型,提取说话人之间的公共重叠部分,建立共性重叠模型和非重叠模型,根据这2个模型完成测试语音特征的选择,计算其在所有说话人非重叠模型中的相似度,并根据相似性最大化原则进行决策。实验结果表明,该方法具有较强的鲁棒性,且系统识别错误率较低。相似文献

14.

基于分布特征统计的说话人识别 总被引：2，自引：2，他引：0

下载免费PDF全文

李邵梅郭云飞卫红权《计算机工程与应用》2009,45(34):118-120

给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。相似文献

15.

基于GMM的说话人识别系统

陈芬菲《微处理机》2006,27(4):76-77,79

实现了一个基于高斯混合模型（GMM）的说话人辨识系统。GMM是用多个高斯分布的概率密度函数的组合来描述特征矢量在概率空间的分布状况，不同的说话人对应了不同的GMM。模型的训练采取了极大似然估计（ML）的EM方法。并在不同的数据集上实验，得到了好的结果。相似文献

16.

基于LabVlEW的语音身份认证系统

唐夫乾汪亚明郑俊褒《工业控制计算机》2011,24(12):22-23

设计了一套基于LabVIEW的语音身份认证系统,以LabVIEW2009为开发平台,采用改进的美尔倒频谱系数法进行语音信号特征提取,采用矢量量化模型进行语音识别,实现了与文本、性别无关的声纹识别.实验结果表明该系统能够有效克服环境噪声、说话人声音变异带来的影响. 相似文献

17.

基于自适应高斯混合模型特征映射的说话人确认

杨世清戴蓓蒨许敏强刘青松《模式识别与人工智能》2009,22(3):417-421

为了解决电话语音说话人确认系统中信道非线性失真导致系统性能下降的问题,提出一种消除信道影响的特征映射方法.采用高斯混合模型建立语音模型,通过最大后验概率自适应某种信道的语音模型,两种模型间相应高斯类的差异描述了该信道对于不同语音的影响.由此得出信道映射规则进行参数补偿,消除训练和测试语音中不匹配的影响.在NIST 1999年和2004年男性说话人的数据库上进行的实验表明,此方法使系统的等错误率分别改善了14.7%和15.18%. 相似文献

18.

基于多特征i-vector的短语音说话人识别算法

孙念张毅林海波黄超《计算机应用》2018,38(10):2839-2843

当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析（PCA）去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析（LDA）挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音（2 s）条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）、感知对数面积比系数（PLAR）特征系统在等错误率（EER）上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数（DCF）上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。相似文献

19.

Extraction of Speaker Features from Different Stages of DSR Front-Ends for Distributed Speaker Verification

Man-Wai?Mak Email author Chin-Hung?Sit Sun-Yuan?Kung 《International Journal of Speech Technology》2005,8(1):67-77

The ETSI has recently published a front-end processing standard for distributed speech recognition systems. The key idea of the standard is to extract the spectral features of speech signals at the front-end terminals so that acoustic distortion caused by communication channels can be avoided. This paper investigates the effect of extracting spectral features from different stages of the front-end processing on the performance of distributed speaker verification systems. A technique that combines handset selectors with stochastic feature transformation is also employed in a back-end speaker verification system to reduce the acoustic mismatch between different handsets. Because the feature vectors obtained from the back-end server are vector quantized, the paper proposes two approaches to adding Gaussian noise to the quantized feature vectors for training the Gaussian mixture speaker models. In one approach, the variances of the Gaussian noise are made dependent on the codeword distance. In another approach, the variances are a function of the distance between some unquantized training vectors and their closest code vector. The HTIMIT corpus was used in the experiments and results based on 150 speakers show that stochastic feature transformation can be added to the back-end server for compensating transducer distortion. It is also found that better verification performance can be achieved when the LMS-based blind equalization in the standard is replaced by stochastic feature transformation. 相似文献

20.

语音识别中基于i-vector的说话人归一化研究

李亚琦黄浩《现代计算机》2014,(5):3-7

i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类．然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别．实验表明该方法能够提高语音识别的性能。相似文献