期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

项要杰杨俊安李晋徽陆俊《计算机工程》2013,(11):214-217,222

Mel倒谱系数（MFcc）侧重提取语音信号的低频信息,对语音信号的频谱分布特性描述不充分,不能有效区分说话人个性信息。为此,通过分析语音信号各频段所含说话人个性信息的不同,结合Mel滤波器和反Mel滤波器在高低频段的不同特性,提出一种适于说话人识别的改进Mel滤波器。实验结果表明,改进Mel滤波器提取的新特征能够获得比传统Mel倒谱系数以及反Mel倒谱系数（IMFCC）更好的识别效果,并且基本不增加说话人识别系统训练和识别的时间开销。相似文献

2.

基于嵌入式注意机制的目标语音提取算法

下载免费PDF全文

郭志楷杨明堃蒋国峰陶祁刘欢欢马红强《计算机测量与控制》2023,31(10):174-181

摘要:针对说话人语音提取问题,提出了一种基于深度神经网络多任务学习的嵌入式注意机制单声道说话人语音提取方法。该算法将语音分离和语音提取统一到单个框架中,向频谱映射分离模型中嵌入说话人注意机制,并在引入说话人辅助信息的注意机制中得到时变注意权重,利用时变注意权重分离出目标说话人的内部嵌入向量,随后采用提取模型对目标说话人的嵌入向量进行非线性处理运算,估计出目标说话人对应的掩蔽,进而提取出目标说话人语音。同时借助TIMIT数据集,进行了语音提取实验。实验结果验证了所提算法的可行性和有效性,并在说话人语音提取的性能上有明显的优越性。相似文献

3.

采用深度信念网络的语音转换方法

王民黄斐刘利卫铭斐王明明《计算机工程与应用》2016,52(15):168-171

对说话人语音个性特征信息的表征和提取进行了深入研究,提出了一种基于深度信念网络（Deep Belief Nets,DBN）的语音转换方法。分别用提取出的源说话人和目标说话人语音频谱参数来训练DBN,分别得到其在高阶空间的语音个性特征表征;通过人工神经网络（Artificial Neural Networks,ANN）来连接这两个高阶空间并进行特征转换;使用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到转换后语音频谱参数,合成转换语音。实验结果表明,与传统的基于GMM方法相比,该方法效果更好,转换语音音质和相似度同目标语音更接近。相似文献

4.

基于聚类分析与说话人识别的语音跟踪

郝敏刘航李扬简单王俊影《计算机与现代化》2020,(4):7-13,18

目前语音跟踪在说话人干扰的条件下,即一段语音中存在多个说话人的混合语音信号时,语音跟踪质量会严重下降。针对这种情况,提出一种基于聚类分析与说话人识别的语音跟踪算法。算法首先使用改进的聚类分析方法进行语音分离,具体包括在K-means聚类中对质心进行缓存并降低采样率,以及在embedding特征空间引入正则项。其次,算法采用GMM-UBM说话人模型进行语音跟踪。实验结果表明改进的聚类分析方法可以有效提高算法的实时性及其语音分离质量,GMM-UBM模型在3 s语音的测试中具有84%的识别率。相似文献

5.

语音识别中的一种说话人聚类算法 总被引：1，自引：1，他引：1

肖述才欧智坚王作英《中文信息学报》2005,19(4):85-89

本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。相似文献

6.

采用STRAIGHT模型和深度信念网络的语音转换方法

王民苏利博王稚慧要趁红《计算机工程与科学》2016,38(9):1950-1954

提出一种将STRAIGHT模型和深度信念网络DBN相结合实现语音转换的方式。首先,通过STRAIGHT模型提取出源说话人和目标说话人的语音频谱参数,用提取的频谱参数分别训练两个DBN得到语音高阶空间的个性特征信息;然后,用人工神经网络ANN将两个具有高阶特征的空间连接并进行特征转换;最后,用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到语音频谱参数,并用STRAIGHT模型合成具有目标说话人个性化特征的语音。实验结果表明,采用此种方式获得的语音转换效果要比传统的采用GMM实现语音转换更好,转换后的语音音质和相似度与目标语音更接近。相似文献

7.

基于分段线性频谱弯折函数的说话人归一化方法 总被引：1，自引：0，他引：1

卢正鼎丰洪才《小型微型计算机系统》2004,25(12):2232-2236

在传统的声道长度归一化方法中 ,基于声道无损级联短管模型假设 ,用一个简单的声道因子来确定频谱弯折函数 ,无法描述出不同说话人的频谱差异的细节 .针对这一缺陷 ,提出用细致的分段线性频谱弯折函数来描述说话人差异 ,在适当的频谱分段下 ,较好地完成了频谱对齐的任务 .此外 ,由于利用了与模型无关的频谱弯折函数 ,该方法被证明是一种快速的、尤其适用于无监督模式的说话人鲁棒性方法相似文献

8.

语音转换关键技术研究

ZHANG Zhao-kun 《数字社区&智能家居》2008,(7)

语音转换技术在语音处理领域是一个比较新的研究方向,也是近年来语音领域的研究热点。语音转换技术是指改变源说话人的语音特征使之具有目标说话人特征的一项技术。本文说明了语音转换的定义,介绍了语音的个性特征,列举了频谱包络的几种主要的转换算法以及韵律转换的主要算法。最后说明了语音转换今后的研究方向。相似文献

9.

语音转换关键技术研究

张照坤《数字社区&智能家居》2008,(3):1309-1312

语音转换技术在语音处理领域是一个比较新的研究方向,也是近年来语音领域的研究热点。语音转换技术是指改变源说话人的语音特征使之具有目标说话人特征的一项技术。本文说明了语音转换的定义,介绍了语音的个性特征,列举了频谱包络的几种主要的转换算法以及韵律转换的主要算法。最后说明了语音转换今后的研究方向。相似文献

10.

语音信号特征提取中Mel倒谱系MFCC的改进算法 总被引：7，自引：1，他引：6

张震王化清《计算机工程与应用》2008,44(22):54-55

从说话人的语音信号中提取说话人的个性特征是声纹识别的关键。主要介绍语音信号特征提取方法中的Mel倒谱系数（Mel-Frequence Cepstral Coefficients,MFCC）的特点及其改进算法（3Q+1）,分析给出了较详细的计算过程并通过实验比较了其和传统算法在语音识别系统中的差别。相似文献

11.

通过分离语音空间和说话人空间的说话人识别

下载免费PDF全文

邱政权尹俊勋《计算机工程与应用》2008,44(12):212-214

在说话人空间中,存在语音特征随句子和时间差异而变化的问题。这个变化主要是由语音数据中的语音信息和说话人信息的变化引起的。如果把这两种信息彼此分离就能实现鲁棒的说话人识别。在假设大的说话人变量的空间为“语音空间”和小的说话人变量的空间为“说话人空间”的情况下,通过子空间方法分离语音信息和说话人信息,提出了说话人辨认和说话人确认方法。结果显示：通过相对于传统方法的比较试验,能用小量训练数据建立鲁棒说话人模型。相似文献

12.

GMM/ANN混合说话人辨认模型

邱政权江太辉《计算机工程与应用》2004,40(17):106-108

通过分析GMM(高斯混合模型)的说话人辨认系统的性能,提出了一种捕捉不同说话人交互信息的人工神经网络(ANN)方法,构成一个GMM/ANN混合说话人辨认系统。实验表明,GMM/ANN混合系统的说话人辨认能够取得比基于GMM和基于MLP(多层感知器)更高的辨认率。相似文献

13.

基于K-L散度模型聚类的快速说话人辨识方法

王欢良韩纪庆郑贵滨《模式识别与人工智能》2010,23(6):856-861

在网络应用环境下,需要处理的音频数据和注册说话人急剧增加,传统说话人辨识方法难以满足实时性要求。文中提出采用K-L散度的说话人模型聚类方法,从而构造一个分级辨识模型,提高辨识效率。研究利用类辨识信息估计置信度的方法,可尽早有效排除集外说话人。实验结果显示,文中方法可使辨识速度平均提高3。2倍,而闭集辨识错误率平均只有0。9%的增加。采用类辨识置信度进一步提高开集辨识速度,并且在保持集内错误率不变的情况下,使集外错误率相对下降5。1%。相似文献

14.

Self-learning speaker identification for enhanced speech recognition

Tobias Herbig Franz Gerl Wolfgang Minker 《Computer Speech and Language》2012,26(3):210-227

A novel approach for joint speaker identification and speech recognition is presented in this article. Unsupervised speaker tracking and automatic adaptation of the human-computer interface is achieved by the interaction of speaker identification, speech recognition and speaker adaptation for a limited number of recurring users. Together with a technique for efficient information retrieval a compact modeling of speech and speaker characteristics is presented. Applying speaker specific profiles allows speech recognition to take individual speech characteristics into consideration to achieve higher recognition rates. Speaker profiles are initialized and continuously adapted by a balanced strategy of short-term and long-term speaker adaptation combined with robust speaker identification. Different users can be tracked by the resulting self-learning speech controlled system. Only a very short enrollment of each speaker is required. Subsequent utterances are used for unsupervised adaptation resulting in continuously improved speech recognition rates. Additionally, the detection of unknown speakers is examined under the objective to avoid the requirement to train new speaker profiles explicitly. The speech controlled system presented here is suitable for in-car applications, e.g. speech controlled navigation, hands-free telephony or infotainment systems, on embedded devices. Results are presented for a subset of the SPEECON database. The results validate the benefit of the speaker adaptation scheme and the unified modeling in terms of speaker identification and speech recognition rates. 相似文献

15.

Three-stage speaker verification architecture in emotional talking environments

Ismail Shahin Ali Bou Nassif 《International Journal of Speech Technology》2018,21(4):915-930

相似文献

16.

Capture interspeaker information with a neural network for speakeridentification

Lan Wang Ke Chen Huisheng Chi 《Neural Networks, IEEE Transactions on》2002,13(2):436-445

Model-based approach is one of methods widely used for speaker identification, where a statistical model is used to characterize a specific speaker's voice but no interspeaker information is involved in its parameter estimation. It is observed that interspeaker information is very helpful in discriminating between different speakers. In this paper, we propose a novel method for the use of interspeaker information to improve performance of a model-based speaker identification system. A neural network is employed to capture the interspeaker information from the output space of those statistical models. In order to sufficiently utilize interspeaker information, a rival penalized encoding rule is proposed to design supervised learning pairs. For better generalization, moreover, a query-based learning algorithm is presented to actively select the input data of interest during training of the neural network. Comparative results on the KING speech corpus show that our method leads to a considerable improvement for a model-based speaker identification system. 相似文献

17.

Subsegmental,segmental and suprasegmental processing of linear prediction residual for speaker information

Debadatta Pati S. R. Mahadeva Prasanna 《International Journal of Speech Technology》2011,14(1):49-64

This work processes linear prediction (LP) residual in the time domain at three different levels, extracts speaker information, and demonstrates their significance and also different nature for text-independent speaker recognition. The subsegmental analysis considers LP residual in blocks of 5 msec with shift of 2.5 msec to extract speaker information. The segmental analysis extracts speaker information by processing in blocks of 20 msec with shift of 2.5 msec. The suprasegmental speaker information is extracted by viewing in blocks of 250 msec with shift of 6.25 msec. The speaker identification and verification studies performed using NIST-99 and NIST-03 databases demonstrate that the segmental analysis provides best performance followed by subsegmental analysis. The suprasegmental analysis gives the least performance. However, the evidences from all the three levels of processing seem to be different and combine well to provide improved performance, demonstrating different speaker information captured at each level of processing. Finally, the combined evidence from all the three levels of processing together with vocal tract information further improves the speaker recognition performance. 相似文献

18.

添加音素持续时间信息到频谱模型的说话人辨认研究

刘大鹏尾关和彦朱庆生《微机发展》2007,17(5):156-159

传统的声音识别系统通过短时声音频谱信息来辨识说话人,这种方法在某些条件下具有较好的性能。但是由于有些说话人特征隐藏在较长的语音片段中,通过添加长时信息可能会进一步提高系统的性能。在文中,音素持续时间信息被添加到传统模型上,以提高说话人辨识率。频谱信息是通过短时分析获得的,但音素持续时间的提取却属于长时分析,它需要更多的语音数据。通过大量语音数据探讨了音素持续时间信息对说话人辨识的有效性,提出2种方法来解决数据量小所引起的问题。实验结果表明,当说话人的声音模型被恰当建立时,即使在语音数据量小的情况下,音素持续时间信息对说话人辨识率的提高也是有效的。相似文献

19.

一种基于性别的说话人索引算法

杨继臣何俊李艳雄《计算机工程与科学》2012,34(6):79-82

为了提高说话人索引准确率,对说话人改变判决中常用的贝叶斯信息判决(BIC)进行改进和在说话人辨认中使用性别信息,提出了一种基于性别的说话人索引算法。首先使用惩罚距离公式对说话人改变进行检测,解决了在说话人改变判决中使用BIC需要不断调节惩罚因子的问题;其次在说话人改变检测的基础上,采用性别模型判断每个说话人的性别;最后把男性和女性说话人分别对待,使用说话人模型自举法对说话人进行辨认。实验结果表明:在说话人改变检测中,采用惩罚距离公式,和BIC相比不需要调整参数,和DISTBIC相比,在F1方面提高了2%;在说话人辨认方面,利用性别信息,说话人索引准确率(SIA)提高了20.93%,说话人数量准确率(SNA)方面提高了3%。相似文献

20.

说话人识别系统研究 总被引：1，自引：0，他引：1

刘刚《网络安全技术与应用》2003,(12):29-31

说话人识别与指纹、脸型等识别技术一样是生物特征识别,是利用包含在说话人的语音波形中特有的个体信息自动识别说话人身份的过程。可广泛用于银行、证券系统、网络安全及军队安全系统中。本文就说话人识别分类、说话人识别实现的物理基础及说话人识别系统的实现方法作了一些分析。相似文献