共查询到18条相似文献,搜索用时 46 毫秒
1.
为了提高说话人识别(SR)系统的运算速度,增强其鲁棒性,以现有的帧级语音特征为基础,提出了一种基于段级特征主成分分析的说话人识别算法。该算法在训练和识别阶段以段级特征代替帧级特征,然后用主成分分析方法对段级特征进行降维、去相关。实验结果表明,该算法的系统训练时间、测试时间分别为基线系统的47.8%、40.0%,同时识别率略有提高,抑制了噪声对说话人识别系统的影响。该结果验证了基于段级特征主成分分析的说话人识别算法在识别率有所提高的情况下取得了较快的识别速度,同时在不同噪声环境下的不同信噪比情况下均可以提高系统识别率。 相似文献
2.
提出了一种使用段级语音特征对测试进行说话人分段从而实现对话环境下说话人分段算法,算法实现中基于车比雪夫和不等式提出了基于协方差模型的段级特征的距离测度描述.该识别方法根据实验选择了合适的段级特征语音段长度,实验结果表明基于段级特征的说话人识别方法在有效地在对话环境下将多人的语音进行分段,从而提高了说话人识别系统的精度和识别速度. 相似文献
3.
如何减少样本的训练测试时间、提高分类精度是有效特征选择方法研究的重要方面。提出了一种结合PCA和ReliefF的特征选择算法。该算法选择出了最具有代表性的特征,构成有效特征子集,实现了特征降维。同时,较PCA-GA方法,该算法具有简单、快速等优点。利用标准数据集进行的实验结果表明,文中算法是可行的、有效的,为模式识别的信息特征压缩提供了一种新的研究方法。 相似文献
4.
针对传统PCA方法对离群点鲁棒性差的问题,提出了一种具有更高鲁棒性且自适应权值的PCA方法。在PCA方法的基础上建立了一个加权的重建误差和最小模型,通过引入信息熵来调节重建误差的权值;通过交替优化算法迭代求解模型。在Yale人脸库和UCI数据集上的实验表明该方法具有很好的鲁棒性和识别率。 相似文献
5.
由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段利用主成分分析方法将第一阶段输出的仍保持高维特性的高维特征空间映射到低维新特征空间。实验结果表明,与单一的传统方法比较,混合特征选择方法实现了二次降维,不但减少了计算开销,还提高了分类性能。 相似文献
6.
提出了一种改进的模块PCA方法,即基于独立特征抽取的模块PCA方法。算法先对图像进行分块,然后对每一子块独立地进行PCA处理,求出测试样本子块与训练样本对应子块间的距离;最后将这些距离相加得到测试样本与训练样本的距离,用最近距离分类器分类。在ORL人脸库和Yale人脸库上的实验结果表明,提出的方法在识别性能上明显优于普通模块PCA方法。 相似文献
7.
8.
9.
10.
11.
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。 相似文献
12.
研究了多模态身份识别问题,结合人脸和掌纹两种不同生理特征,提出了基于特征融合的多模态身份识别方法。对人脸和掌纹图像分别进行Gabor小波、二维主元变换(2DPCA)提取图像特征,根据新的权重算法,结合两种模态的特征,利用最邻近分类器进行分类识别。在AMP、ORL人脸库和Poly-U掌纹图像库中的实验结果表明,两种模态的融合能更多地给出决策分析所需的特征信息相比传统的单一模态的人脸或掌纹识别具有较高的识别率,更具安全性和准确性。 相似文献
13.
WANG Lei 《数字社区&智能家居》2008,(22)
重点研究在噪声环境下,话者识别中语音信号的特征提取。将能减化信号,消除较小分量而保留信号的基本特征的数学形态滤波器良好的滤波性应用在一维语音信号的处理中。并在噪声环境下,应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括线性预测倒谱系数、MEL倒谱系数、语音动态参数、激励源特征等,对这些参数进行分析和比较,以达到话者识别的目的。 相似文献
14.
王蕾 《数字社区&智能家居》2008,(8):784-785
重点研究在噪声环境下,话者识别中语音信号的特征提取。将能减化信号,消除较小分量而保留信号的基本特征的数学形态滤波器良好的滤波性应用在一维语音信号的处理中。并在噪声环境下,应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括线性预测倒谱系数、MEL倒谱系数、语音动态参数、激励源特征等,对这些参数进行分析和比较.以达到话者识别的目的。 相似文献
15.
The shapes of speakers' vocal organs change under their different emotional states, which leads to the deviation of the emotional acoustic space of short-time features from the neutral acoustic space and thereby the degradation of the speaker recognition performance. Features deviating greatly from the neutral acoustic space are considered as mismatched features, and they negatively affect speaker recognition systems. Emotion variation produces different feature deformations for different phonemes, so it is reasonable to build a finer model to detect mismatched features under each phoneme. However, given the difficulty of phoneme recognition, three sorts of acoustic class recognition--phoneme classes, Gaussian mixture model (GMM) tokenizer, and probabilistic GMM tokenizer--are proposed to replace phoneme recognition. We propose feature pruning and feature regulation methods to process the mismatched features to improve speaker recognition performance. As for the feature regulation method, a strategy of maximizing the between-class distance and minimizing the within-class distance is adopted to train the transformation matrix to regulate the mismatched features. Experiments conducted on the Mandarin affective speech corpus (MASC) show that our feature pruning and feature regulation methods increase the identification rate (IR) by 3.64% and 6.77%, compared with the baseline GMM-UBM (universal background model) algorithm. Also, corresponding IR increases of 2.09% and 3.32% can be obtained with our methods when applied to the state-of-the-art algorithm i-vector. 相似文献
16.
为了快速有效地进行步态识别,利用特征关系非平稳分布的统计特性,提出了一种新的基于特征关系表述的步态识别算法。首先,将剪影轮廓相邻像素点间8邻域相对方向标号作为特征关系属性一,将轮廓边界点与中心点间的距离作为特征关系属性二,经直方图归一化处理,得到两种关系属性的联合概率;其次,结合主成分分析(PCA)降维的方法,提取特征主向量;最后,采用最近邻分类器进行识别分类。实验证明,该算法在CASIA步态数据库上,最高达到了90%以上的识别率,而且与传统的特征关系表述步态识别算法相比,关系属性联合概率矩阵维数由900维下降到240维,大大降低了算法的计算代价。 相似文献
17.
18.
Todor Ganchev Ilyas Potamitis Nikos Fakotakis George Kokkinakis 《International Journal of Speech Technology》2004,7(4):281-292
Investigating Speaker Verification in real-world noisy environments, a novel feature extraction process suitable for suppression of time-varying noise is compared with a fine-tuned spectral subtraction method. The proposed feature extraction process is based on approximating the clean speech and the noise spectral magnitude with a mixture of Gaussian probability density functions (pdfs) by using the Expectation-Maximization algorithm (EM). Subsequently, the Bayesian inference framework is applied to the degraded spectral coefficients, and by employing Minimum Mean Square Error Estimation (MMSE), a closed form solution for the spectral magnitude estimation task is derived. The estimated spectral magnitude finally is incorporated into the Mel-Frequency Cepstral Coefficients (MFCCs) front-end of a baseline text-independent speaker verification system, based on Probabilistic Neural Networks, which participated successfully in the 2002 NIST (National Institute of Standards and Technology of USA) Speaker Recognition Evaluation. A comparative study of the proposed technique for real-world noise types demonstrates a significant performance gain compared to the baseline speech features and to the spectral subtraction enhancement method. Improvements of the absolute speaker verification performance with more than 27% for 0 dB signal-to-noise ratio (SNR), compared to the MFCCs, and with more than 13% for –5 dB SNR, compared to the spectral subtraction version, were obtained in the case of a passing-by aircraft scenario. 相似文献