期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

屈丹闫红刚唐晖王炳锡《数据采集与处理》2009,24(5)

压缩域说话人识别算法(Compressed-domain automatic speaker recognition,CD-ASR)即从压缩语音数据中直接提取压缩参数进行说话人识别,无需参数译码和波形合成.本文提出了基于概率统计直方图的VoIP压缩域说话人识别算法,包括矢量量化统计直方图和高斯混合模型统计直方图两种方法.在给出了G.729,G.723.1(6.3 kb/s),G.723.1(5.3 kb/s)压缩码流的压缩域特征提取方案后,分别以矢量量化统计直方图和高斯混合模型统计直方图作为识别模型进行说话人识别.实验结果表明,概率统计直方图法比在压缩码漉中提取同样识别参数的GMM模型,识别率有很大提高. 相似文献

2.

G.729编码流说话人识别研究

唐晖李弼程《电子技术应用》2008,34(1):97-100

研究了G.729编码流说话人识别算法,提出了一种使用固定码书增益作为判决参数的G.729静音帧判决方法。将这一方法应用于低复杂度的G.729编码流说话人识别,去除压缩语音数据中的静音帧从而提高识别率。相似文献

3.

说话人识别中随机局部搜索算法的研究

下载免费PDF全文

蒋皓石杜谋辉林嘉宇《计算机工程与科学》2006,28(7):85-86

目前在矢量量化的码本训练中经典的聚类方法是LBG算法,但该算法的主要缺陷是对初始码书的依赖性较大,容易过早地陷入局部极小.本文在基于矢量量化的说话人识别中研究了一种随机局部搜索的聚类算法.该算法不依赖初始条件,结构规则,容易实现,效果好,具有很优越的全局优化搜索能力,在语音参数聚类实验中表现出了很好的性能,得到的码书质量也优于经典的LBG-算法,从而为在基于矢量量化的说话人识别中设计准全局最优码书提供了一种新思路. 相似文献

4.

说话人识别中用模型合成的编码畸变补偿研究

下载免费PDF全文

马苗苗何勇军韩纪庆《计算机工程与应用》2011,47(3):135-138

编码环境失配是影响说话人识别准确率的重要因素之一。在说话人识别系统上,对码速率在5.15～128 Kb/s之间的语音编码进行了实验分析,结果表明,高速率语音编码对说话人识别系统的影响不大,低速率语音编码使系统性能急剧下降。针对这一问题,采用基于UBM的说话人模型合成算法对低速率语音编码的说话人模型进行补偿,在NIST 2002单说话人识别数据库上的实验表明,此方法能显著提高系统识别率。相似文献

5.

G．729A语音编解码算法的优化

仲伟峰段双军《自动化技术与应用》2010,29(1):23-26

本文主要是对G．729A语音编解码算法和定点数字信号处理芯片TMS320C55x的研究,提出了简化算法和优化代码的方案。结果表明,得到了预期的8Kb／s的低码速率、较低的算法延时和极高的语音音质。相似文献

6.

语音识别中的一种说话人聚类算法 总被引：1，自引：1，他引：1

肖述才欧智坚王作英《中文信息学报》2005,19(4):85-89

本文介绍了稳健语音识别中的一种说话人聚类算法,包括它在语音识别中的作用和具体的用法,聚类中常用的特征、距离测度,聚类的具体实现步骤等。我们从两个方面对该算法的性能进行了测试,一是直接计算句子聚类的正确率,二是对说话人自适应效果的改进的作用,即比较使用此算法后系统性能的改进进行评价。实验表明:在使用GLR 距离作为距离测度的时候,该算法对句子的聚类正确率达85169 %;在识别实验中,该聚类算法的使用,使得用于说话人自适应的数据更加充分,提高了自适应的效果,系统的误识率已经接近利用已知说话人信息进行自适应时的误识率。相似文献

7.

基于减法聚类与改进的模糊C-均值聚类算法的说话人识别方法的研究 总被引：1，自引：0，他引：1

崔连延徐林顾树生曹洪奎《信息与控制》2008,37(3):1-1

提出一种将减法聚类与改进的模糊C-均值聚类相结合并用于说话人识别的方法．该方法将从语音信号中提取的Mel 频率倒谱系数及其差分作为特征参数;用减法聚类算法初始化聚类中心,再用改进的模糊C-均值聚类算法进行修正,形成码本．识别时,对每一个待识别语音进行模糊聚类识别．仿真结果表明,该方法比改进的模糊C-均值聚类算法识别率高,具有较好的鲁棒性,且计算比较简单．相似文献

8.

双路G．7 23．1在ADSP21 061上的实时实现

李锦宇宋彦王仁华《数据采集与处理》2000,15(4):481-485

由于具有高音质和低码速率的特点,G．723．1被作为PSTN网上的可视电话的语音通信标准,并广泛应用于IP Phoen等其他语音通信领域。文中详细介绍了在ADSP21061上实时实现双路G．723．1编解码功能的软硬件设计。系统实现的关键难点是双路编解码算法的实时实现,因为采用原始的G．723．1算法,双路编解码系统无法实时的实现。通过采用作者提出的一个递推算法,双路G．723．1编解码算法所需要的计算量最多为26．9MIPS,从而能够在ADSP21061上实时实现。递推算法没有造成G．723．1算法数值的任何改变。由于ADSP21061是一个低价位芯片,所以该双路系统具有相当高的性能价格比,它已经在PSTN网上多媒体通信系统和数字语音记录仪上进行了推广应用。相似文献

9.

基于DTW的编码域说话人识别研究

李榕健于洪涛李邵梅《电子技术应用》2010,36(8)

相对解码重建后的语音进行说话人识别,从VoIP的语音流中直接提取语音特征参数进行说话人识别方法具有便于实现的优点,针对G.729编码域数据,研究基于DTW算法的快速说话人识别方法。实验结果表明,在相关的说话人识别中,DTW算法相比GMM在识别正确率和效率上有了很大提高。相似文献

10.

语音识别中基于i-vector的说话人归一化研究

李亚琦黄浩《现代计算机》2014,(5):3-7

i-vector是反映说话人声学差异的一种重要特征,在目前的说话人识别和说话人验证中显示了有效性。将i-vector应用于语音识别中的说话人的声学特征归一化,对训练数据提取i-vector并利用LBG算法进行无监督聚类．然后对各类分别训练最大似然线性变换并使用说话人自适应训练来实现说话人的归一化。将变换后的特征用于训练和识别．实验表明该方法能够提高语音识别的性能。相似文献

11.

Detection of quantization index modulation steganography in G.723.1 bit stream based on quantization index sequence analysis

Song-bin LI Huai-zhou TAO Yong-feng HUANG 《浙江大学学报:C卷英文版》2012,(8):624-634

This paper presents a method to detect the quantization index modulation(QIM) steganography in G.723.1 bit stream.We show that the distribution of each quantization index(codeword) in the quantization index sequence has unbalanced and correlated characteristics.We present the designs of statistical models to extract the quantitative feature vectors of these characteristics.Combining the extracted vectors with the support vector machine,we build the classifier for detecting the QIM steganography in G.723.1 bit stream.The experiment shows that the method has far better performance than the existing blind detection method which extracts the feature vector in an uncompressed domain.The recall and precision of our method are all more than 90% even for a compressed bit stream duration as low as 3.6 s. 相似文献

12.

G.723.1语音编码算法闭环基音搜索的低复杂度算法

张春茂唐昆崔慧娟杜文李敬《计算机工程与应用》2003,39(29):78-79,95

由于ITU-TG.723.1语音编码算法具有较高的算法复杂度,故而在应用与实现时受到了很多的限制。该文提出一种低复杂度闭环基音搜索算法,该算法仍以5阶基音预测器为基础,但在求取5个基音预测增益时不是采用原算法中对20维矢量码本进行搜索的方法,而是利用这个20维矢量组成一个Wiener-Hopf方程,并利用语音的短时平稳特性将该方程简化为一个Toeplitz线性代数方程组,方程组的解就是所求的基音预测增益。对该增益进行5维码本矢量量化,从而用5维矢量码本搜索代替了原来的20维矢量码本搜索。这样使闭环基音搜索部分的运算量降低了一半,语音质量只有略微下降,同时与G.723.1算法码流兼容。相似文献

13.

基于多特征i-vector的短语音说话人识别算法

孙念张毅林海波黄超《计算机应用》2018,38(10):2839-2843

当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析（PCA）去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析（LDA）挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音（2 s）条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）、感知对数面积比系数（PLAR）特征系统在等错误率（EER）上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数（DCF）上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。相似文献

14.

基于线性对数似然核函数的说话人识别

何亮刘加《计算机应用》2011,31(8):2083-2086

为了提高文本无关的说话人识别系统的性能,提出了基于线性对数似然核函数的说话人识别系统。线性对数似然核函数利用高斯混合模型对频谱特征序列进行压缩;将频谱特征序列之间的相似程度转化为高斯混合模型参数之间的距离;根据距离表达式,利用极化恒等式求得频谱特征序列向高维矢量空间的映射方法;最后,在高维矢量空间,采用支持向量机(SVM)为目标说话人建立模型。在美国国家标准技术署公布的说话人识别数据库上的实验结果表明,所提核函数具有优异的识别性能。相似文献

15.

基于分布特征统计的说话人识别 总被引：2，自引：2，他引：0

下载免费PDF全文

李邵梅郭云飞卫红权《计算机工程与应用》2009,45(34):118-120

给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。相似文献

16.

基于LabVlEW的语音身份认证系统

唐夫乾汪亚明郑俊褒《工业控制计算机》2011,24(12):22-23

设计了一套基于LabVIEW的语音身份认证系统,以LabVIEW2009为开发平台,采用改进的美尔倒频谱系数法进行语音信号特征提取,采用矢量量化模型进行语音识别,实现了与文本、性别无关的声纹识别.实验结果表明该系统能够有效克服环境噪声、说话人声音变异带来的影响. 相似文献

17.

Spectral-temporal receptive fields and MFCC balanced feature extraction for robust speaker recognition

Wang Jia-Ching Wang Chien-Yao Chin Yu-Hao Liu Yu-Ting Chen En-Ting Chang Pao-Chi 《Multimedia Tools and Applications》2017,76(3):4055-4068

This paper proposes a speaker recognition system using acoustic features that are based on spectral-temporal receptive fields (STRFs). The STRF is derived from physiological models of the mammalian auditory system in the spectral-temporal domain. With the STRF, a signal is expressed by rate (in Hz) and scale (in cycles/octaves). The rate and scale are used to specify the temporal response and spectral response, respectively. This paper uses the proposed STRF based feature to perform speaker recognition. First, the energy of each scale is calculated using the STRF representation. A logarithmic operation is then applied to the scale energies. Finally, a discrete cosine transform is utilized to the generation of the proposed STRF feature. This paper also presents a feature set that combines the proposed STRF feature with conventional Mel frequency cepstral coefficients (MFCCs). The support vector machines (SVMs) are adopted to be the speaker classifiers. To evaluate the performance of the proposed speaker recognition system, experiments on 36-speaker recognition were conducted. Comparing with the MFCC baseline, the proposed feature set increases the speaker recognition rates by 3.85 % and 18.49 % on clean and noisy speeches, respectively. The experiments results demonstrate the effectiveness of adopting STRF based feature in speaker recognition.

相似文献

18.

基于小波倒谱系数和概率神经网络的取证说话人识别模型

雷磊佘堃《计算机应用研究》2018,35(4)

取证说话人识别是一种利用犯罪现场留下的质疑语音来识别犯罪分子身份的技术。为了提高识别模型的抗噪能力,本论文提出了基于小波倒谱系数（WCC）和概率神经网络（PNN）的取证说话人识别模型。该模型包含WCC特征提取和PNN分类两个步骤。WCC对噪音不敏感,所以使得我们的模型有抗噪能力。PNN是一种高效的分类算法,从而提高了模型识别性能。实验表明,该模型以提高时间消耗为代价提高了识别率和抗噪能力。相似文献