首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 243 毫秒
1.
基于说话人聚类和支持向量机的说话人确认研究   总被引:3,自引:1,他引:3  
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。  相似文献   

2.
在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示:通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。  相似文献   

3.
语音是人机交互方式之一,语音识别技术是人工智能的重要组成部分.近年来神经网络技术在语音识别领域的应用快速发展,已经成为语音识别领域中主流的声学建模技术.然而测试条件中目标说话人语音与训练数据存在差异,导致模型不适配的问题.因此说话人自适应(SA)方法是为了解决说话人差异导致的不匹配问题,研究说话人自适应方法成为语音识别领域的一个热门方向.相比传统语音识别模型中的说话人自适应方法,使用神经网络的语音识别系统中的自适应存在着模型参数庞大,而自适应数据量相对较少等特点,这使得基于神经网络的语音识别系统中的说话人自适应方法成为一个研究难题.首先回顾说话人自适应方法的发展历程和基于神经网络的说话人自适应方法研究遇到的各种问题,其次将说话人自适应方法分为基于特征域和基于模型域的说话人自适应方法并介绍对应原理和改进方法,最后指出说话人自适应方法在语音识别中仍然存在的问题及未来的发展方向.  相似文献   

4.
目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。  相似文献   

5.
研究了多种低速率信道环境下,语音编码对与文本无关说话人确认的影响。针对训练和测试语音匹配和不匹配的两种情况下,分别提出了两种方法来提高系统的鲁棒性。在前者中,通过分析语音编码对LPCC参数的影响,提出了一种基于编码失真的 LPCC 加权参数。在后者中,采用了基于高斯混合模型(GMM)的语音编码检测器,通过判别测试语音的编码类型,选择不同的说话人确认模型。实验结果表明,这两种方法提高了说话人确认系统在多信道条件下的鲁棒性。  相似文献   

6.
殷启新  杨鉴 《计算机应用》2004,24(Z1):371-373
采用掌上电脑录音的语音数据库,研究与文本无关的说话人识别,通过引入一种基于高斯混合模型和假设检验方法的新算法,有效提高说话人确认系统的性能.实验结果表明,以假设检验分析为基础的识别算法比传统的使用假冒说话人背景集标准化法的识别算法更加有效,可以同时获得低错误拒绝率(FRR)和低错误接受率(FAR),是一种适合于用掌上电脑录音的语音数据的方法.  相似文献   

7.
一种新的说话人确认方法   总被引:3,自引:0,他引:3  
张怡颖  朱小燕  张钹 《软件学报》1999,10(4):372-376
文章在对说话人确认和说话人辨认进行比较研究的基础上,提出一种新的说话人确认方法.同传统方法相比,该方法通过建立非特定说话人模型综合多个说话人的语音特性,使其能够对于不同的待确认语音给出不同的判决阈值,从而解决了说话人确认在判决阈值设置上存在的困难.实验结果表明,该方法能够显著降低说话人确认系统的错误接受率和错误拒绝率,为说话人确认应用于保密性要求较高的环境提供了一条有效的途径.  相似文献   

8.
张玉莲  姚姗姗  王超  畅江 《计算机应用》2023,(12):3727-3732
说话人确认任务旨在判断注册语音与测试语音是否属于同一说话人。针对说话人识别系统提取的声纹特征通常会受到与身份信息无关的因素干扰进而导致系统的准确性严重下降的问题,提出一种基于不确定性学习(UL)的文本无关的说话人确认(TISV)方法。首先,在说话人主干网络中引入不确定性同时学习声纹特征(均值)和话语数据的不确定性(方差),以建模语音数据集中的不确定性;其次,通过重采样技巧得到特征的分布表示;最后,在说话人分类损失中引入KL散度正则化约束噪声的分布,从而解决计算分类损失过程中的退化问题。实验结果表明,当训练集为VoxCeleb1和VoxCeleb2开发集时,与基于确定性方法的Thin ResNet34模型相比,所提方法的模型在VoxCeleb1-O测试集上的等错误率(EER)分别降低了9.9%和10.4%,最小检测代价函数(minDCF)分别降低了10.9%和4.5%。可见,所提方法在有噪声、无约束场景下的准确度有所提高。  相似文献   

9.
在线无监督说话人检索中稳健的模型自举算法   总被引:2,自引:0,他引:2  
付中华  张艳宁 《软件学报》2007,18(3):608-616
基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法.  相似文献   

10.
提出了一种基于本征音因子分析的文本无关的说话人识别方法.它解决了训练语音与测试语音均很短的情况下,传统的基于最大后验概率准则的混合高斯模型无法建立稳定的说话人模型问题.首先利用期望最大化算法在开发集上训练出说话人的本征音载荷矩阵,在说话人模型建模时通过将短时语音数据向本征音空间的降维映射来得到模型参数.实验结果表明,在NIST SRE 2006数据库中的10 s训练语音-10 s测试语音任务中,在传统的混合高斯模型的基线系统上,通过采用本征音因子分析的方法可以使系统等错误率降低18%.  相似文献   

11.
多媒体音箱     
小范 《微型计算机》2005,(C00):92-100
PC多媒体技术突飞猛进的发展让多媒体音箱市场呈现不断增长的热头。作为PC最主要的声音回放终端,多媒体音箱产品在用户日益提升的消费需求和欣赏水平带动下变得更加成熟,另一方面,由于应用的驱使,[编者按]  相似文献   

12.
基于话者特征图案的BPNN话者模型   总被引:1,自引:0,他引:1  
该文提出了一种用于说话人识别的基于话者特征图案的BPNN话者模型,该话者模型解决了语音信号的时长变化与神经网络输入层结点数固定不变之间的矛盾。利用VQ技术对所有话者的语音样本训练出话者特征图案,再将语音样本对该特征图案进行映射,在映射域解决了语音样本的时间规正问题。同时,该方法还提高了映射域参数的模式分类能力。  相似文献   

13.
14.
说话人识别综述   总被引:1,自引:0,他引:1  
在分析说话人识别原理的基础上,分别从说话人识别的特征提取、说话人模型等方面进行了综述,并讨论了说话人识别的优点和不足,展望了其应用研究的前景。  相似文献   

15.
由于传统的说话人识别中,常用的特征参数有线性预测系数(LPC)、Mel频率倒谱系数(MFCC),采用单一特征参数并不能很好地反映说话人特性.针对这种情况,提出了引入Delta特征和特征组合的方法.实验结果表明,引入Delta特征和特征组合对识别效果有明显提高,实验中选用GMM作为说话人识别模型.  相似文献   

16.
In this paper, we study robust speaker recognition in far-field microphone situations. Two approaches are investigated to improve the robustness of speaker recognition in such scenarios. The first approach applies traditional techniques based on acoustic features. We introduce reverberation compensation as well as feature warping and gain significant improvements, even under mismatched training-testing conditions. In addition, we performed multiple channel combination experiments to make use of information from multiple distant microphones. Overall, we achieved up to 87.1% relative improvements on our Distant Microphone database and found that the gains hold across different data conditions and microphone settings. The second approach makes use of higher-level linguistic features. To capture speaker idiosyncrasies, we apply n-gram models trained on multilingual phone strings and show that higher-level features are more robust under mismatching conditions. Furthermore, we compared the performances between multilingual and multiengine systems, and examined the impact of a number of involved languages on recognition results. Our findings confirm the usefulness of language variety and indicate a language independent nature of this approach, which suggests that speaker recognition using multilingual phone strings could be successfully applied to any given language.  相似文献   

17.
Mismatch between enrollment and test data is one of the top performance degrading factors in speaker recognition applications. This mismatch is particularly true over public telephone networks, where input speech data is collected over different handsets and transmitted over different channels from one trial to the next. In this paper, a cohort-based speaker model synthesis (SMS) algorithm, designed for synthesizing robust speaker models without requiring channel-specific enrollment data, is proposed. This algorithm utilizes a priori knowledge of channels extracted from speaker-specific cohort sets to synthesize such speaker models. The cohort selection in the proposed new SMS can be either speaker-specific or Gaussian component based. Results on the China Criminal Police College (CCPC) speaker recognition corpus, which contains utterances from both landline and mobile channel, show the new algorithms yield significant speaker verification performance improvement over Htnorm and universal background model (UBM)-based speaker model synthesis.  相似文献   

18.
In this paper, we propose three divide-and-conquer approaches for Bayesian information criterion (BIC)-based speaker segmentation. The approaches detect speaker changes by recursively partitioning a large analysis window into two sub-windows and recursively verifying the merging of two adjacent audio segments using $Delta BIC$ , a widely-adopted distance measure of two audio segments. We compare our approaches to three popular distance-based approaches, namely, Chen and Gopalakrishnan's window-growing-based approach, Siegler 's fixed-size sliding window approach, and Delacourt and Wellekens's DISTBIC approach, by performing computational cost analysis and conducting speaker change detection experiments on two broadcast news data sets. The results show that the proposed approaches are more efficient and achieve higher segmentation accuracy than the compared distance-based approaches. In addition, we apply the segmentation approaches discussed in this paper to the speaker diarization task. The experiment results show that a more effective segmentation approach leads to better diarization accuracy.   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号