期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘文举孙兵钟秋海《电子学报》2005,33(7):1230-1233

识别正确率和抗噪性能固然是说话人识别的研究重点,但识别响应速度也是决定系统实用化的关键所在.本文成功地提出了基于说话人分类技术的分级说话人辨识方法,极大地提高了系统运行速度,随着注册说话人数的增多,较之传统的说话人辨识方法,其优势更加明显.同时在说话人确认中,该方法的使用,进一步提高了确认的正确率,有效地降低了错误接受和错误拒绝率.本文提出的可信度打分方法,也一定程度上改进了系统的性能.实验表明:基于说话人分类技术的说话人辨识方法使系统的运行速度平均提高了3.5倍,对说话人确认等误识率和最小误识率平均下降了53.75%. 相似文献

2.

基于高斯混合模型和残差预测的说话人转换系统 总被引：1，自引：1，他引：0

吕声尹俊勋黄建成《电声技术》2004,(6):33-36

说话人转换是将源说话人的语音特征转换成目标说话人的特征,使得听起来像是目标说话人的语音。提出的说话人转换系统分为2个部分,第一部分利用高斯混合模型进行谱包络的转换,训练采用时间对齐的源说话人和目标说话人的语音数据进行。第二部分基于一个分类器和残差码本对残差信号预测。该系统在现有的说话人转换系统的基础上做了一些改进,改进后不再需要说话人模仿别人的语调,并且在某些性能上超过了现有的系统。相似文献

3.

改进的非匹配信道法庭自动说话人识别方法

王华朋杨军吴鸣许勇《电声技术》2013,37(4):61-67,71

在新的似然比法庭证据评估体系下,为降低对问题语音和嫌疑人语音样本数量的要求,提出了改进的基于GMM-UBM识别核心的法庭自动说话人识别系统。为降低信道差异对法庭自动说话人识别系统性能的影响,提出了一种不同信道间说话人模型补偿与Logistic回归混合处理的方法。固定电话信道和移动电话信道的实验结果表明:改进的自动识别系统在非匹配信道中使用4秒的测试语音,与未使用模型补偿的系统相比,错误认定率从28.95%下降为6.32%,大幅度提高了系统在非匹配条件下的可靠性。相似文献

4.

基于支撑向量选择的说话人自适应

王坚《中国新通信》2007,9(11):60-63

针对语音识别中快速说话人自适应问题，对已有的说话人支持权重算法进行改进，利用支撑向量机（Support Vector Machines，SVM）参与支持说话人选择过程，并采用最大后验概率（Maximum a Posteriori，MAP）代替最大似然（Maximum Likelihood，ML）准则进行支撑说话人权重的估算，最后对测试说话人进行线性组合。与现有的相关自适应方法相比，该算法能够有效提高自适应数据较少时的性能。实验结果表明，在仅有一句自适应语句的情况下系统汉字正识率从原有非特定人（Speaker Independent，SI）系统的45．67％到58．05％，相对原有说话人支持权重算法提高4．67％。相似文献

5.

基于并行化的说话人识别方法的研究

《信息技术》2017,(10)

随着人工智能时代的到来,语音信号处理已经成为热门的研究方向之一。基于并行化的说话人识别方法,利用拾音器阵列采集多路语音信号,传输到嵌入式GPU系统,在嵌入式GPU系统内依次进行预处理、并行化特征提取和特征匹配并把输出结果进行显示。针对现在大数据量的语音信号进行处理,对说话人识别算法进行了并行化改进,优化了语音信号处理等过程,提高说话人识别系统的效率和准确率,增强了说话人识别系统的鲁棒性。相似文献

6.

基于音色一致的语音克隆说话人特征提取方法

下载免费PDF全文

李嘉欣张连海李宜亭《信号处理》2023,39(4):719-729

当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。相似文献

7.

声纹识别的应用与矢量量化算法研究

石柱《电声技术》2006,(10):44-48

针对声纹识别算法中的矢量量化方法,给出一种新的初始码本选择策略:超球面极值选择法;对提出的新策略进行性能分析,证明该方法在矢量量化码本训练过程中收敛速度快,不存在振荡点与空胞腔问题,计算量小,易于实现;应用此策略实现了基于矢量量化的说话人识别系统,与传统选择策略的系统识别结果进行统计比较,结果表明由改进超球面极值选择法得到的说话人矢量量化码本,识别性能好,具有可应用价值。相似文献

8.

基于LPC分析的语音特征参数研究及其在说话人识别中的应用 总被引：3，自引：0，他引：3

张玲华郑宝玉杨震《南京邮电学院学报(自然科学版)》2005,25(6):1-6

对LPC（线性预测系数）参数及其派生参数进行了研究，重点讨论了各参数的计算方法，在此基础上提出了一种由LPC参数和语音帧能量构成的组合参数。利用GMM对20个说话人进行了闭集文本无关说话人识别实验。结果表明，与LPC参数的派生参数相比，该组合参数可以以较少的运算量取得与LPC派生参数相当的识别效果；与直接使用LPC参数相比，该组合参数能够在运算量增加不明显的情况下改进系统的性能，特别是在测试音长度较短的情况下，对性能的改进尤为明显。相似文献

9.

基于NIST评测的说话人分类及定位技术研究

杨毅宋辉刘加《电子与信息学报》2011,33(5):1234-1237

该文针对美国国家标准与技术研究院(NIST)的 NIST评测,构建了一套多距离麦克风说话人分类及定位语音处理系统,针对NIST富标注评测中提出的说话人分类问题,提出改进的结合时延估计和聚类的说话人分类方法,在保证稳定性的前提下降低说话人分类的复杂度并提高准确率;提出一种新的相邻阵元间时延构造矩阵方程算法,可得到多个说话人的方向角。实验在标准会议环境下采集真实语音数据进行算法验证,说话人分类算法的正确率接近目前主要说话人分类系统的正确率,定位方向角误差在3以内。实验结果说明,适当条件下多距离麦克风系统可作为合适的语音信号输入设备应用于多人多方会议环境。相似文献

10.

说话人识别技术在网络视听内容监管中的应用

高志恒《广播电视信息》2017,(5)

本文结合网络视听内容监管业务,提出了一种基于度量空间聚类的说话人识别技术应用思路,并搭建了追踪系统进行验证. 相似文献

11.

STATISTICAL FEATURE OF PITCH FREQUENCY DISTRIBUTIONS FOR OBUST SPEAKER IDENTIFICATION

Zhang Linghua Zheng Baoyu Yang Zhen 《电子科学学刊(英文版)》2005,(4)

This letter proposes an effective and robust speech feature extraction method based on statistical analysis of Pitch Frequency Distributions (PFD) for speaker identification. Compared with the conventional cepstrum, PFD is relatively insensitive to Additive White Gaussian Noise (AWGN), but it does not show good performance for speaker identification, even if under clean environments. To compensate this shortcoming, PFD and conventional cepstrum are combined to make the ultimate decision, instead of simply taking one kind of features into account. Experimental results indicate that the hybrid approach can give outstanding improvement for text-independent speaker identification under noisy environments corrupted by AWGN. 相似文献

12.

基于分类特征空间高斯混合模型和神经网络融合的说话人识别 总被引：2，自引：0，他引：2

黄伟戴蓓蒨李辉《电子与信息学报》2004,26(10):1607-1612

该文提出了一种基于分类高斯混合模型和神经网络融合(FS-GMM/NN)的说话人识别方法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类。然后根据各个类中含特征矢量的多少采用不同的模型混合度,训练建立分类高斯混合模型。并采用神经网络实现各个分类高斯混合模型输出的融合。在100个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法在识别性能及噪声鲁棒性上都优于不分类的GMM识别系统,并具有较高的模型训练效率,且可以有效地降低话者模型的混合度和测试语音长度。相似文献

13.

Statistical feature of pitch frequency distributions for robust speaker identification

ZhangLinghua ZhengBaoyu YangZhen 《电子科学学刊(英文版)》2005,22(4):437-442

This letter proposes an effective and robust speech feature extraction method based on statistical analysis of Pitch Prequency Distributions (PFD) for speaker identification. Compared with the conventional cepstrum, PFD is relatively insensitive to Additive White Gaussian Noise (AWGN), but it does not show good performance for speaker identification, even if under clean environments. To compensate this shortcoming, PFD and conventional cepstrum are combined to make the ultimate decision, instead of simply taking one kind of features into account.Experimental results indicate that the hybrid approach can give outstanding improvement for text-independent speaker identification under noisy environments corrupted by AWGN. 相似文献

14.

基于加权特征值补偿的说话人识别 总被引：3，自引：0，他引：3

于鹏徐义芳曹志刚《信号处理》2002,18(6):513-517

背景噪声的存在,使得说话人识别系统的训练环境和测试环境发生失配,导致系统性能发生急剧下降。本论文提出一种加权特征值补偿算法,把由噪声引起的使带噪语音信号特征值与纯净语音特征值发生偏差的部分去除,从而使进入识别器的特征值接近纯净语音的特征值。在特征值补偿过程中引入了信噪比加权的方法。实验表明,这种方法能够有效的提高说话人识别系统的性能。相似文献

15.

基于BP神经网络的说话人识别技术的实现

陈仁林郭中华朱兆伟《智能计算机与应用》2012,(2):47-49

说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP(Back-propagation Neural Network)是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。相似文献

16.

SVM‐Based Speaker Verification System for Match‐on‐Card and Its Hardware Implementation

Woo‐Yong Choi Dosung Ahn Sung Bum Pan Kyo Il Chung Yongwha Chung Sang‐Hwa Chung 《ETRI Journal》2006,28(3):320-328

Using biometrics to verify a person's identity has several advantages over the present practice of personal identification numbers (PINs) and passwords. To gain maximum security in a verification system using biometrics, the computation of the verification as well as the storing of the biometric pattern has to take place in a smart card. However, there is an open issue of integrating biometrics into a smart card because of its limited resources (processing power and memory space). In this paper, we propose a speaker verification algorithm using a support vector machine (SVM) with a very few features, and implemented it on a 32‐bit smart card. The proposed algorithm can reduce the required memory space by a factor of more than 100 and can be executed in real‐time. Also, we propose a hardware design for the algorithm on a field‐programmable gate array (FPGA)‐based platform. Based on the experimental results, our SVM solution can provide superior performance over typical speaker verification solutions. Furthermore, our FPGA‐based solution can achieve a speed‐up of 50 times over a software‐based solution. 相似文献

17.

噪声环境下说话人识别的组合特征提取方法 总被引：1，自引：0，他引：1

芮贤义俞一彪《信号处理》2006,22(5):673-677

针对在干净语音环境下识别率很高的说话人识别系统,在噪声环境下识别率显著降低的缺点,本文结合具有多分辨率分析特点的小波变换技术,提出一种基于小波变换的组合特征提取算法,以提高说话人识别系统在噪声环境下的识别性能。对40个说话人的语音库SUDA2002-D2,在噪声环境下进行的识别实验结果表明,本文提出的组合特征提取算法可以在噪声环境下有效地提高说话人识别系统的识别性能。相似文献

18.

语音增强用于抗噪声的汉语说话人识别

王永琦邓琛杨洋《微电子学与计算机》2006,23(2):166-168

大多数实际应用环境中总是存在各种各样的噪声，由于训练环境与识别环境不匹配，现有的绝大多数说话人识别系统在噪声环境中的性能都不可避免的急剧下降。为了让说话人识别系统在强噪声环境中，有较好的识别效果．研究一个将语音增强器和说话人识别系统级连起来的系统，该系统中将语音增强作为前端处理来提高输入的信噪比。实验证明，该系统具有很好的抗噪声性能。相似文献

19.

Combination of pitch synchronous analysis and fisher criterion for speaker identification

Zeng Yumin Wu Zhenyang 《电子科学学刊(英文版)》2007,24(6):828-834

A novel text independent speaker identification system is proposed. In the proposed system, the 12-order perceptual linear predictive cepstrum and their delta coefficients in the span of five frames are extracted from the segmented speech based on the method of pitch synchronous analysis. The Fisher ratios of the original coefficients then be calculated, and the coefficients whose Fisher ratios are bigger are selected to form the 13-dimensional feature vectors of speaker. The Gaussian mixture model is used to model the speakers. The experimental results show that the identification accuracy of the proposed system is obviously better than that of the systems based on other conventional coefficients like the linear predictive cepstral coefficients and the Mel-frequency cepstral coefficients. 相似文献

20.

倒谱域特征分量置信度分析及说话人识别应用

薛峰俞一彪《信号处理》2010,26(1):127-131

缺失数据理论的置信度分析用于说话人识别时,使用的是滤波器组语音特征,虽然系统的鲁棒性可以提高,但整体的误识率依然很高。为了进一步降低系统的误识率,本文在滤波器组语音特征分量置信度的基础上,提出了一种用于计算倒谱域特征MFCC各维分量置信度的方法CBTM,该方法通过一个置信度变换矩阵,估算出经过Mel谱减法处理后的MFCC各维分量的置信度,在此基础上通过对GMM模型的方差加权来减少置信度小的特征分量对输出概率的影响,以此来提高系统的鲁棒性。在基于SUDA2002语料库的说话人辨认实验中,上述方法对NoiseX 92噪声库中的white、pink、factory1噪声表现出了比传统方法更低的误识率,说明了这种方法的有效性。相似文献