期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

茅正冲王正创黄芳《计算机工程与应用》2015,51(10):215-218

为了提高说话人识别抗噪系统的性能,提出了将RLS自适应滤波器作为语音信号去噪的预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别系统中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显的提高。相似文献

2.

基于FCM-PNN分类器的说话人识别

程剑锋徐俊艳《计算机工程与应用》2004,40(10):65-67

说话人识别的本质就是模式分类。传统分类器算法中参数模型方法的主要缺点是预先假定的概率分布函数形式不一定符合待分类的数据。非参数模型方法,如PNN分类器,可以有效地克服参数模型的缺点,但其巨大的内存开销与低的分类速度使得PNN作为大量和高维的数据样本分类几乎不可行。FCM虽具有良好的模糊聚类能力,但无法直接给出概率分类结果。该文提出的FCM-PNN分类器,在FCM聚类的基础上,以贝叶斯置信度为基础,利用PNN进行概率分类。它结合了FCM聚类和PNN概率分类的优势,同时克服了传统参数模型分类和FCM聚类的局限性。实验结果证实了FCM-PNN分类器具有分类精度高、速度快及揭示细节的能力。相似文献

3.

说话人识别中测试时长与识别率关系研究

孙林慧叶蕾杨震《计算机仿真》2005,22(5):231-234

测试时长是影响说话人识别问题的主要因素之一。该文主要对分布式语音识别中测试时长与说话人识别率的关系进行了研究。文中采用文本无关的训练模板,首先对基本的说话人辨认系统用干净语音和带噪语音进行了测试,结果表明系统识别率随测试时长的增加而提高,并在实验室条件下获得加噪语音最佳测试时长。其次为了减小最佳测试时长采用改进的说话人辨认系统,先对说话人的性别进行分类然后再对其身份进行识别,不仅减少了测试所需的最佳时长,而且提高了系统的抗噪性能。最后对仿真结果进行了分析。相似文献

4.

基于BP神经网络的说话人识别技术的实现

陈仁林郭中华朱兆伟《电脑学习》2012,2(2):47-49

说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP（Back-propagation Neural Network）是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。相似文献

5.

基于GMM与改进MCE训练的说话人识别研究

王松孙传庆朱正平《自动化与仪器仪表》2010,(6):21-23

在应用最小分类错误（MCE）准则对识别说话人的高斯混合模型（GMM）训练中,采用一个权重函数来确定说话人模型参数调整量的权值,使得比较近的竞争说话人模型的权值大,比较远的竞争说话人模型的权值小。并采用梯度概率递减算法来实现损失函数的最小化,有效提高了说话人识别的速度和精度。相似文献

6.

基于CFCC和相位信息的鲁棒性说话人辨识

下载免费PDF全文

李作强高勇《计算机工程与应用》2015,51(17):228-232

传统的说话人识别中,人们往往认为人耳对相位信息不敏感而忽略了相位信息对语音识别的影响。为了验证相位信息对说话人识别的影响,提出了一种提取相位特征参数的方法。分别在纯净语音和带噪语音条件下,基于高斯混合模型,通过将相位特征参数与耳蜗倒谱系数（CFCC）相结合,研究了相位信息对说话人辨识性能的影响。实验结果标明：相位信息在说话人识别中也有着重要的作用,将其应用于说话人辨识系统,可明显提高系统的识别率和鲁棒性。相似文献

7.

基于改进MFCC融合特征及FA-PNN的驾驶员路怒情绪识别

下载免费PDF全文

李尚卿王晓原张杨李浩项徽《计算机工程与应用》2023,59(2):306-313

现今关于驾驶员路怒情绪识别方法中语音特性分析相对较少,该研究以路怒情绪为研究对象,利用模拟驾驶系统建立数据集,通过分析驾驶员语音的频谱特征,将时域中短时能量及短时过零率特征参数和改进Mel频率倒谱系数（Mel frequency cepstral coefficients,MFCC）特征参数融合构成特征参数向量,利用萤火虫算法（firefly algorithm,FA）优化PNN神经网络（probabilistic neural networks）并构建识别模型,实现驾驶员路怒情绪的识别。实验结果表明,在相同神经网络下,改进MFCC融合特征提取方法相比传统MFCC特征提取方法具有更好的抗噪性。同时,FA-PNN模型的识别准确率为93.0%,相比传统PNN模型提高了11个百分点;F1-Score值为0.932 8,提高了0.104 7。该研究论证了语音信号处理技术对驾驶员路怒情绪识别的可行性,为汽车主动安全驾驶预警研究提供了新方法。相似文献

8.

基于EMD与RLS的说话人识别抗噪算法

《计算机应用与软件》2016,(5)

语音信号是一种典型的非平稳信号。为了分析语音的非平稳特性,提出一种基于经验模态分解(EMD)与递推最小二乘算法(RLS)自适应滤波器相结合的语音信号去噪预处理器,进一步提高语音信号的信噪比和可懂度。再通过Gammatone滤波器组,对去噪后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种方法应用于说话人识别抗噪系统,系统的识别率及鲁棒性都有明显提高。相似文献

9.

基于贝叶斯网络的说话人识别研究

万洪杰杜利民邓浩江《计算机应用》2005,25(6):1334-1335,1338

基于贝叶斯网络基础理论,并针对与文本无关说话人识别任务,构造了一种用于说话人识别的贝叶斯网络结构,给出了该网络模型的构造和参数估计方法,提出了进行说话人识别时进行推理和分类预测的算法。通过与传统的混合高斯模型(GMM)的实验类比,该贝叶斯网络模型能够在同样的训练和测试数据情况下识别率平均相对提高30％。相似文献

10.

基于深度神经网络的噪声环境下对话行为分类模型

申屠相镕秦会斌《测控技术》2021,40(3):46-50

对话行为可以在一定程度上表达说话人的意图,对话行为分类是机器翻译、人机交互设计等领域的基本要求,对于语音识别领域具有重要的意义.针对噪音环境下的对话行为分类提出了一种新的模型,通过快速噪声估计谱减法进行语音增强,采用长短期记忆网络对经过卷积神经网络语言嵌入后的词向量进行学习,从而得到具有抗噪性的对话行为分类模型.使用中文日常用语语料库的样本进行了多组对比试验,以测试新模型的抗噪声能力和对话行为分类的准确性.结果表明在0 dB的噪声环境下,模型的对话行为分类准确度达到95.5％,当噪声增加到5 dB时仍能保持94.1％,为噪音环境下的对话分类提供了一种新的模型. 相似文献

11.

基于概率神经网络的汉语耳语音识别系统

下载免费PDF全文

荣薇陶智顾济华赵鹤鸣《计算机工程与应用》2008,44(17):148-150

以提高汉语耳语的识别率为目的,提出了基于概率神经网（PNN）的语音识别系统。实验结果说明该方法提高了系统的识别率,大大缩短了识别时间,提高了整个系统的实时性。在小字库内得出的识别率为94.7%。相似文献

12.

基于小波包分解和噪声分析的抗噪说话人识别特征参数

吴峰燕李志华《计算机与现代化》2009,(1)

为提高说话人识别中语音特征参数对噪声的鲁棒性,本文提出在对语音进行小波包分解基础上,分析噪声的特性,在不同子带内进行谱减并设立权重,提出了一种新的语音特征参数多层美尔倒谱系数.仿真实验表明,与MFCC特征参数相比,ML-MFCC在噪声环境下具有更好的抗噪性能和说话人识别率. 相似文献

13.

小波语音增强算法在说话人识别中的应用

王娜郑德忠刘海龙《控制工程》2007,14(5):495-498

干净语音环境下识别率很高的说话人识别系统,在有噪声语音环境下识别性能显著降低。针对这一问题,将小波语音增强算法应用于说话人识别系统,提出一种结点阈值去噪新方法。语音增强主要目的是从带噪语音中尽可能地提取纯净的原始语音。在不同信噪比条件下进行实验,结果表明,提出的方法比传统的阈值法能更好地提高语音质量。相似文献

14.

基于稀疏编码的鲁棒说话人识别

何勇军孙广路付茂国韩纪庆《数据采集与处理》2014,29(2):198-203

目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。相似文献

15.

基于DWT-TEO的说话人识别 总被引：4，自引：0，他引：4

邱政权尹俊勋薛丽萍《自动化学报》2006,32(5):753-759

针对在噪声环境下的说话人识别系统,做了两点改进．第一,为了提高系统的鲁棒性,通过不同尺度的小波基,把含有噪声的信号分解于不同频段中,然后在各个频段分别通过TEO(Teager能量算子)去噪．针对说话人识别的特点,在小波重构时对各小波系数进行了加权处理．再把各个频段的输出通过小波重构恢复信号．最后通过Mel滤波器组把小波系数转换成MFCC．第二,为了进一步提高识别性能和训练速度,在识别阶段采用了改进的OGMM(正交高斯混合模型),即把正交变换改到EM算法之前进行,这样就不必要在EM迭代过程中每次都进行正交运算了．从实验得出,采用本文提出的DWT-TEO参数对于说话人识别的效果较好．采用改进的OGMM进一步提高了识别性能和训练速度．相似文献

16.

改善线性预测系数倒谱抗噪声性能的方法

韩春光《计算机工程与设计》2005,26(5):1377-1379

线性预测系数倒谱(LPCC)是说话人辨认系统中较为有效的特征参数之一，但是该参数的抗噪性能不好，当语音中含有噪声时，系统的识别率明显下降。基于MATLAB软件，建立了一高斯混合模型(GMM)的说话人辨认系统，提出了特征参数加权窗口的方法。通过对多种加权窗口的正确识别率比较，发现对LPCC低阶参数的加窗提升，可以改善系统的噪声鲁棒性。MATLAB仿真结果显示，采用加窗后的系统识别率得到了明显改善。相似文献

17.

Average framing linear prediction coding with wavelet transform for text-independent speaker identification system

Khaled Daqrouq Khalooq Y. Al Azzawi 《Computers & Electrical Engineering》2012

In this work, an average framing linear prediction coding (AFLPC) technique for text-independent speaker identification systems is presented. Conventionally, linear prediction coding (LPC) has been applied in speech recognition applications. However, in this study the combination of modified LPC with wavelet transform (WT), termed AFLPC, is proposed for speaker identification. The investigation procedure is based on feature extraction and voice classification. In the phase of feature extraction, the distinguished speaker’s vocal tract characteristics were extracted using the AFLPC technique. The size of a speaker’s feature vector can be optimized in term of an acceptable recognition rate by means of genetic algorithm (GA). Hence, an LPC order of 30 is found to be the best according to the system performance. In the phase of classification, probabilistic neural network (PNN) is applied because of its rapid response and ease in implementation. In the practical investigation, performances of different wavelet transforms in conjunction with AFLPC were compared with one another. In addition, the capability analysis on the proposed system was examined by comparing it with other systems proposed in literature. Consequently, the PNN classifier achieves a better recognition rate (97.36%) with the wavelet packet (WP) and AFLPC termed WPLPCF feature extraction method. It is also suggested to analyze the proposed system in additive white Gaussian noise (AWGN) and real noise environments; 58.56% for 0 dB and 70.52% for 5 dB. The recognition rates for the whole database of the Gaussian mixture model (GMM) reached the lowest value in case of small number of training samples. 相似文献

18.

基于数据驱动缺失特征检测与重建的声纹识别

尹海明王金明李欢欢《计算机工程与应用》2016,52(22):159-163

声纹识别系统的识别性能会随着环境噪声的增强而急剧降低,为了使系统具备一定的噪声鲁棒性,提出了一种基于数据驱动缺失特征检测与重建的声纹识别前端处理方法。充分利用大量数据训练得到的信息估计子带信噪比,检测、标记和重建被噪声污染严重的子带特征,从而得到噪声鲁棒性特征参数。实验表明,该方法在低信噪比环境下取得了较高的识别率提升,在非平稳噪声下系统性能也有着较好的改善。相似文献

19.

基于自适应直方图均衡化的鲁棒性说话人辨认研究

徐利敏唐振民何可可钱博《自动化学报》2008,34(7):752-759

在噪声环境下, 为提高说话人识别系统的鲁棒性, 需要对系统进行各种抗噪声处理. 本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点, 提出了直方图均衡化的自适应方法. 实验结果表明, 与普通直方图均衡化变换方法相比, 自适应直方图均衡化能进一步提高辨认系统的辨认率; 并且无论在平稳噪声还是非平稳噪声环境下, 该算法都能取得较好辨认率, 进一步增强系统的鲁棒性. 相似文献