期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴峰燕李志华《计算机与现代化》2009,(1)

为提高说话人识别中语音特征参数对噪声的鲁棒性,本文提出在对语音进行小波包分解基础上,分析噪声的特性,在不同子带内进行谱减并设立权重,提出了一种新的语音特征参数多层美尔倒谱系数.仿真实验表明,与MFCC特征参数相比,ML-MFCC在噪声环境下具有更好的抗噪性能和说话人识别率. 相似文献

2.

基于HMM与遗传神经网络的改进语音识别系统

吴延占《计算机系统应用》2016,25(1):204-208

为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能. 相似文献

3.

说话人识别中的维纳滤波和MMCE

下载免费PDF全文

范小春邱政权《计算机工程与应用》2010,46(10):113-114

将小波变换和维纳滤波结合起来对语音进行去噪和MMCE对说话人进行识别。说话人识别近来的关注点主要集中在子带处理的使用上。通过三尺度的Daubechies小波把输入含噪信号分解于不同子带中,然后在各个子带分别通过维纳滤波去噪,再把各个子带的输出通过小波重构恢复信号,最后通过Mel滤波器组把小波系数转换成MFCC（美尔倒谱系数）。提出了一种改进的MCE模型去减少计算量,并进而提高运算速度。实验结果显示：提出的方法减少了计算量,而且提高了系统的辨认率。相似文献

4.

基于HMM的性别识别 总被引：2，自引：1，他引：2

邓英欧贵文《计算机工程与应用》2004,40(15):74-75

进行男女生识别的方法有很多种,如GMM,VQ等,该文提出了基于HMM进行说话人性别识别的方法,该方法通过计算语音信号的Mel频率倒谱系数(MFCC)并使用隐马尔可夫模型(HMM)进行性别识别。在实验室环境下,对50个不同说话人(其中男女说话人各占一半)的语音文件采用该方法与基于VQ的方法进行比较实验,从实验方法和实验结果方面得出结论:HMM的方法更加简单易行,识别率更高。对于实验的语音材料,采用HMM的方法识别率可以达到100%。相似文献

5.

一种多层子带的噪声语音识别新方法

蒋文建韦岗《数据采集与处理》2002,17(1):15-19

根据不同尺度子带特征反映语音的不同细节特性，提出一种噪声下的多层子带（MLS）语音识别方法。将语音频谱分成多层多个子带，首先各子带分另单独进行识别，然后将各层各子带识别概率综合起来得到最终识别结果。将新方法应用于TIMIT数据饣E-Set在NoiseX92白噪声和F16噪声下识别实验。实验结果表明，多层子带方法在噪声环境和无噪情况下识别性能都有很大提高。相似文献

6.

一种基于χ2分布的子带噪声估计方法

邹霞赵继勇张雄伟《数据采集与处理》2008,23(1)

提出了一种基于χ2分布的子带噪声估计方法.带噪语音信号在临界带进行分解,并且假设子带信号服从χ2分布,然后在各个子带,采用基于χ2分布的改进最小统计量控制递归平均方法进行噪声估计.与传统的改进最小统计量控制递归平均噪声估计相比,该子带噪声估计方法可以利用人耳感知特性,并大大减少计算量.实验结果表明,提出的方法具有较好的噪声跟踪能力和较小的计算需求.采用该噪声估计的语音增强系统具有更强的噪声抑制性能和较好的增强语音信号质量. 相似文献

7.

基于子带分解的语音分离算法研究

潘赛虎孙琦马正华孙玉强《计算机应用与软件》2009,26(3)

提出一种有效解决不相互独立语音源信号混合的分离算法.利用子带分解方法,将混合信号分解成多个子带信号,在各个子带上分别进行语音分离得出语音分离信号,利用提出的相关性能指数,判断出相互独立的子带信号,把该子带的分离矩阵作为混合信号的解混合矩阵对混合信号进行分离.实验证明了本算法对相关语音源信号较好的分离效果. 相似文献

8.

一种噪声环境的语音端点检测方法

下载免费PDF全文

王帛冯新喜邱浪波《计算机工程与应用》2012,48(6):123-125

端点检测是语音识别系统的一个重要组成,尤其是在噪声环境中,其准确性对语音识别系统性能有直接影响。提出了一种基于小波子带倒谱系数（SBC）的语音信号端点检测方法,利用小波变换对频带进行尺度划分,采用小波子带倒谱能量检测语音端点。通过与MFCC的仿真对比以及大量实验分析,小波子带倒谱特征在语音端点检测中具有更好的识别性能。相似文献

9.

混合语音识别模型的设计与仿真研究

宋志章马丽刘省非李奇楠《计算机仿真》2012,29(5):152-155

研究语音识别率问题,语音信号是一种非平稳信号,含有大量噪声信息,目前大多数识别算法线性理论,难以正确识别语音信号非线性变化过程,识别正确率低。通过将隐马尔可夫模型(HMM)和SVM相结合组成一个混合抗噪语音识别模型(HMM-SVM)。同时用HMM模型对语音信号时序进行建模,并得到待识别语音信号的输出概率,然后将输出概率作为SVM的输入进行学习,得到语音分类信息,最后通过利用HMM-SVM识别结果做出正确识别决策。仿真结果表明,HMM-SVM提高语音识别正确率,尤其在低信噪比环境下,明显改善了语音识别系统的性能。相似文献

10.

基于FMFCC和HMM的说话人识别 总被引：2，自引：0，他引：2

张永亮张先庭鲁宇明《计算机仿真》2010,27(5):352-354,358

美尔频率倒谱系数(MFCC)是说话人识别中常用的特征参数,而语音信号是非平稳信号,MFCC并不能很好的反映语音的时频特性。针对这一缺陷,为了提高说话人的识别率,结合新的时频分析工具分数傅立叶变换(FRFT)。将MFCC推广到分数形式,得到分数美尔频率倒谱系数(FMFCC),用以表征语音信号的特征;并利用可分性测度验证了特征参数的有效性;通过建立20个不同说话人的FMFCC特征库,采用隐马尔可夫模型(HMM)对说话人进行仿真识别。仿真结果表明,在合适的变换阶次下,说话人的平均识别率可达93%以上。相似文献

11.

基于MAP+CMLLR的说话人识别中发声力度问题

黄文娜彭亚雄贺松《计算机应用》2017,37(3):906-910

为了改善发声力度对说话人识别系统性能的影响,在训练语音存在少量耳语、高喊语音数据的前提下,提出了使用最大后验概率（MAP）和约束最大似然线性回归（CMLLR）相结合的方法来更新说话人模型、投影转换说话人特征。其中,MAP自适应方法用于对正常语音训练的说话人模型进行更新,而CMLLR特征空间投影方法则用来投影转换耳语、高喊测试语音的特征,从而改善训练语音与测试语音的失配问题。实验结果显示,采用MAP+CMLLR方法时,说话人识别系统等错误率（EER）明显降低,与基线系统、最大后验概率（MAP）自适应方法、最大似然线性回归（MLLR）模型投影方法和约束最大似然线性回归（CMLLR）特征空间投影方法相比,MAP+CMLLR方法的平均等错率分别降低了75.3%、3.5%、72%和70.9%。实验结果表明,所提出方法削弱了发声力度对说话人区分性的影响,使说话人识别系统对于发声力度变化更加鲁棒。相似文献

12.

Speaker recognition under stressed condition

G. Senthil Raja S. Dandapat 《International Journal of Speech Technology》2010,13(3):141-161

This paper presents the feature analysis and design of compensators for speaker recognition under stressed speech conditions. Any condition that causes a speaker to vary his or her speech production from normal or neutral condition is called stressed speech condition. Stressed speech is induced by emotion, high workload, sleep deprivation, frustration and environmental noise. In stressed condition, the characteristics of speech signal are different from that of normal or neutral condition. Due to changes in speech signal characteristics, performance of the speaker recognition system may degrade under stressed speech conditions. Firstly, six speech features (mel-frequency cepstral coefficients (MFCC), linear prediction (LP) coefficients, linear prediction cepstral coefficients (LPCC), reflection coefficients (RC), arc-sin reflection coefficients (ARC) and log-area ratios (LAR)), which are widely used for speaker recognition, are analyzed for evaluation of their characteristics under stressed condition. Secondly, Vector Quantization (VQ) classifier and Gaussian Mixture Model (GMM) are used to evaluate speaker recognition results with different speech features. This analysis help select the best feature set for speaker recognition under stressed condition. Finally, four VQ based novel compensation techniques are proposed and evaluated for improvement of speaker recognition under stressed condition. The compensation techniques are speaker and stressed information based compensation (SSIC), compensation by removal of stressed vectors (CRSV), cepstral mean normalization (CMN) and combination of MFCC and sinusoidal amplitude (CMSA) features. Speech data from SUSAS database corresponding to four different stressed conditions, Angry, Lombard, Question and Neutral, are used for analysis of speaker recognition under stressed condition. 相似文献

13.

A novel whispered speaker identification system based on extreme learning machine

J. Sangeetha T. Jayasankar 《International Journal of Speech Technology》2018,21(1):157-165

Whispered speech speaker identification system is one of the most demanding efforts in automatic speaker recognition applications. Due to the profound variations between neutral and whispered speech in acoustic characteristics, the performance of conventional speaker identification systems applied on neutral speech degrades drastically when compared to whisper speech. This work presents a novel speaker identification system using whispered speech based on an innovative learning algorithm which is named as extreme learning machine (ELM). The features used in this proposed system are Instantaneous frequency with probability density models. Parametric and nonparametric probability density estimation with ELM was compared with the hybrid parametric and nonparametric probability density estimation with Extreme Learning Machine (HPNP-ELM) for instantaneous frequency modeling. The experimental result shows the significant performance improvement of the proposed whisper speech speaker identification system. 相似文献

14.

基于多特征i-vector的短语音说话人识别算法

孙念张毅林海波黄超《计算机应用》2018,38(10):2839-2843

当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析（PCA）去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析（LDA）挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音（2 s）条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数（MFCC）、线性预测倒谱系数（LPCC）、感知对数面积比系数（PLAR）特征系统在等错误率（EER）上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数（DCF）上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。相似文献

15.

基于改进LPCC和MFCC的汉语耳语音识别 总被引：5，自引：0，他引：5

荣薇陶智顾济华赵鹤鸣《计算机工程与应用》2007,43(30):213-216

以提高汉语耳语的识别率为目的,提出了将MFCC、LPCC及它们各自的动态参数等多种特征有效结合进行耳语识别的方法。实验结果说明了LPCC、MFCC结合动态参数可作为汉语耳语音识别的特征参数,且它们的结合提高了系统的识别率,在小字库内得出的识别率为94.5%。相似文献

16.

采用PCNN的有噪特定人语音识别系统

韦丽兴张淼钟映春韩光《计算机工程与应用》2012,48(3):133-136

在特定人语音识别系统中,噪声严重影响语音特征提取,并导致语音识别率明显下降。针对在噪声环境下语音识别率偏低的问题,通过谱减法去除语音信号噪声,并根据语音信号语谱图可视化的特点,运用脉冲耦合神经网络从语音信号的语谱图中提取熵序列作为特征参数进行语音识别。实验结果表明,该方法能较好地去除语音信号中的噪声,并能使在噪声环境下的特定人语音识别系统具有较好的识别效果。相似文献

17.

深层神经网络语音识别自适应方法研究

邓侃欧智坚《计算机应用研究》2016,33(7)

为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案：首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。相似文献

18.

最大后验概率自适应方法在口令识别中的应用

下载免费PDF全文

司华建李辉陈冠华方昕《计算机工程与应用》2013,49(12):164-167

自适应技术是提高非特定人语音识别系统识别性能的有效手段,其中应用最广泛的两种自适应方法是基于最大后验概率的自适应方法和基于最大似然线性回归的自适应方法,分析了它们各自的特点并将最大后验概率的自适应方法应用到基于隐马尔可夫模型的口令识别系统中,实验结果表明,该方法能够在每个词自适应一次的情况下,使系统的识别率由40%提高到90%以上,并在此基础上实现了一个实用的中等词汇量的口令识别系统。相似文献

19.

Performance of speaker identification using CSM and TM

R.?Visalakshi Email author P.?Dhanalakshmi 《International Journal of Speech Technology》2016,19(3):457-465

The main objective of this paper is to develop the system of speaker identification. Speaker identification is a technology that allows a computer to automatically identify the person who is speaking, based on the information received from speech signal. One of the most difficult problems in speaker recognition is dealing with noises. The performance of speaker recognition using close speaking microphone (CSM) is affected in background noises. To overcome this problem throat microphone (TM) which has a transducer held at the throat resulting in a clean signal and unaffected by background noises is used. Acoustic features namely linear prediction coefficients, linear prediction cepstral coefficients, Mel frequency cepstral coefficients and relative spectral transform-perceptual linear prediction are extracted. These features are classified using RBFNN and AANN and their performance is analyzed. A new method was proposed for identification of speakers in clean and noisy using combined CSM and TM. The identification performance of the combined system is increased than individual system due to complementary nature of CSM and TM. 相似文献

20.

Text-independent speaker recognition using LSTM-RNN and speech enhancement

El-Moneim Samia Abd Nassar M. A. Dessouky Moawad I. Ismail Nabil A. El-Fishawy Adel S. Abd El-Samie Fathi E. 《Multimedia Tools and Applications》2020,79(33-34):24013-24028

Speaker recognition revolution has lead to the inclusion of speaker recognition modules in several commercial products. Most published algorithms for speaker recognition focus on text-dependent speaker recognition. In contrast, text-independent speaker recognition is more advantageous as the client can talk freely to the system. In this paper, text-independent speaker recognition is considered in the presence of some degradation effects such as noise and reverberation. Mel-Frequency Cepstral Coefficients (MFCCs), spectrum and log-spectrum are used for feature extraction from the speech signals. These features are processed with the Long-Short Term Memory Recurrent Neural Network (LSTM-RNN) as a classification tool to complete the speaker recognition task. The network learns to recognize the speakers efficiently in a text-independent manner, when the recording circumstances are the same. The recognition rate reaches 95.33% using MFCCs, while it is increased to 98.7% when using spectrum or log-spectrum. However, the system has some challenges to recognize speakers from different recording environments. Hence, different speech enhancement techniques, such as spectral subtraction and wavelet denoising, are used to improve the recognition performance to some extent. The proposed approach shows superiority, when compared to the algorithm of R. Togneri and D. Pullella (2011).

相似文献