首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
针对汉语语音情感识别问题,提出了一种基于脉冲耦合神经网络(PCNN)的识别方法。该方法将语音转化为语谱图后输入到PCNN,得到输出图像的神经元点火序列及其熵序列作为语音情感的特征,利用其特征实现语音情感识别。实验结果表明,该方法可以有效地识别“高兴”与“平常”这两种不同的情感。该方法将PCNN引入到语音情感识别的应用研究中,开拓了语音和图像信号结合处理的新领域,同时对于PCNN的理论研究和实际应用具有重要的现实意义。  相似文献   

2.
基于PCNN的语谱图特征提取在说话人识别中的应用   总被引:7,自引:1,他引:7  
该文首次提出了一种将有生物视觉依据的人工神经网络——脉冲耦合神经网络(PulseCoupledNeuralNetwork,以下简称为PCNN)用于说话人识别领域的语谱图特征提取的新方法。该方法将语谱图输入到PCNN后得到输出图像的时间序列及其熵序列作为说话人语音的特征,利用它的不变性实现说话人识别。实验结果表明,该方法可以快速有效地进行说话人识别。该文将PCNN引入到语音识别的应用研究中,开拓了信号处理中两个极为重要的部分———语音信号处理和图像信号处理结合的新领域,同时对于PCNN的理论研究和实际应用具有非常重要的现实意义。  相似文献   

3.
基于PCNN和RBF的孤立词语音识别研究   总被引:1,自引:0,他引:1  
通过对孤立词语音识别现状的研究,提出了一种利用简化脉冲耦合神经网络PCNN和径向基函数RBF神经网络进行语音识别的新方法.利用语音信号的"可视"特性--语谱图,采用PCNN得到它的时间序列标识图作为语音信号的特征参数,辅以传统的RBF的语音识别方法,实现了孤立词语音识别.仿真结果表明,与其它方法比较,该方法能够达到较高的语音识别率.  相似文献   

4.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

5.
提出了一种改进脉冲耦合神经网络(IPCNN)实现语音识别的方法。首先利用IPCNN来快速提取语音的语谱图图像特征,然后由概率神经网络(PNN)辅助来识别语音。通过训练语音样本来构成语音识别库并建立综合识别系统。实验结果表明,本方法相对于单独使用PCNN和PNN识别率分别提高了22.7%和39.4%,达到92%的识别率。  相似文献   

6.
在特定人语音识别系统中,噪声严重影响语音特征提取,并导致语音识别率明显下降。针对在噪声环境下语音识别率偏低的问题,通过谱减法去除语音信号噪声,并根据语音信号语谱图可视化的特点,运用脉冲耦合神经网络从语音信号的语谱图中提取熵序列作为特征参数进行语音识别。实验结果表明,该方法能较好地去除语音信号中的噪声,并能使在噪声环境下的特定人语音识别系统具有较好的识别效果。  相似文献   

7.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

8.
从人类语音产生的机理出发,介绍了语音信号的特征和语音信号的语谱图,引出了语音信号的产生模型.同时讨论了在语音信号产生的模型应用中,线性预测编码方法及语音产生模型在语音合成和语音识别中的应用原理,体现了语音产生模型在语音处理技术方面的重要地位.  相似文献   

9.
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN,CDRNN结合CNN和RNN的优势,用于移动终端声纹识别应用。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到Deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-UBM等其他方案更好的识别准确率。  相似文献   

10.
刘晓璇  季怡  刘纯平 《计算机科学》2021,48(z2):270-274
声纹识别利用说话人生物特征的个体差异性,通过声音来识别说话人的身份.声纹具有非接触、易采集、特征稳定等特点,应用领域十分广泛.现有的统计模型方法具有提取特征单一、泛化能力不强等局限性.近年来,随着人工智能深度学习的快速发展,神经网络模型在声纹识别领域崭露头角.文中提出基于长短时记忆(Long Short-Term Memory,LSTM)神经网络的声纹识别方法,使用语谱图提取声纹特征作为模型输入,从而实现文本无关的声纹识别.语谱图能够综合表征语音信号在时间方向上的频率和能量信息,表达的声纹特征更加丰富.LSTM神经网络擅长捕捉时序特征,着重考虑了时间维度上的信息,相比其他神经网络模型,更契合语音数据的特点.文中将LSTM神经网络长期学习的优势与声纹语谱图的时序特征有效结合,实验结果表明,在THCHS-30语音数据集上取得了84.31%的识别正确率.在自然环境下,对于3 s的短语音,该方法的识别正确率达96.67%,与现有的高斯混合模型和卷积神经网络方法相比,所提方法的识别性能更优.  相似文献   

11.
汉语方言分区研究是语言学的重要组成部分。鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区。论文首先构建了江西省11个省辖市、91个下辖县级行政区的时长约1 500分钟的1 223条语音语料库,然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,新型语谱图特征的聚类性能度量内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。  相似文献   

12.
13.
正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%.  相似文献   

14.
基于脉冲耦合神经网络的图像NMI特征提取及检索方法   总被引:2,自引:0,他引:2  
为了简单有效地提取图像重要特征信息, 从而更好地提高检索图像的精度, 提出了一种基于脉冲耦合神经网络(Pulse coupled neural networks, PCNN)的图像归一化转动惯量(Normalized moment of inertia, NMI)特征提取及检索算法. 首先利用改进简化PCNN模型相似神经元同步时空特性及指数衰降机制将图像分解为具有相关性的二值系列图像, 然后提取反映原始图像目标形状、结构分布二值系列图像的一维NMI特征矢量信号, 并将其应用在图像检索中; 同时, 考虑到二值系列图像间的相关性及不同图像间NMI序列值的差异性, 引入了马氏距离结合Pearson积矩相关法的 综合相似性度量方法. 实验结果表明, 所提算法对图像特征矢量序列具有良好抗几何畸变不变特性及对图像表述的唯一性,且具有较好的图像检索效果.  相似文献   

15.
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是基于生物视觉特性而提出的新一代人工神经网络,它在数字图像处理及人工智能等领域具有广泛应用前景.本文通过研究PCNN理论模型及其工作特性的基础上提出了一种提取人脸特征的方法.首先利用小波变换提取人脸图像低频特征,降低人脸图像的维度,然后利用简化的PCNN提取小波低频系数重构后的人脸图像的相应时间序列,并以此作为人脸识别的特征序列.最后利用时间序列和欧式距离完成人脸的识别过程.本文通过ORL人脸库进行实验证明了该方法的有效性.  相似文献   

16.
具有生物背景的脉冲耦合神经网络具有自适应提取指纹特征的特性,基于此,首次提出了一种指纹图像特征提取的新方法一一自适应耦合神经网络点火统计图的,此图不仅包含了指纹图像的灰度特征,还包含相邻像素之间的几何位置信息。此方法具有运算速度快及对旋转、平移、尺度不变性,是许多指纹特征提取算法不具备的优点。最后给出了部分实验的结果,以验证该方法的有效性.  相似文献   

17.
Abstract

Speech enhancement is an interesting research area that aims at improving the quality and intelligibility of the speech that is affected by the additive noises, such as airport noise, train noise, restaurant noise, and so on. The presence of these background noises degrades the comfort of listening of the end user. This article proposes a speech enhancement method that uses a novel feature extraction which removes the noise spectrum from the noisy speech signal using a novel fractional delta-AMS (amplitude modulation spectrogram) feature extraction and the D-matrix feature extraction method. The fractional delta-AMS feature extraction strategy is the modification of the delta-AMS with the fractional calculus that increases the sharpness of the feature extraction. The extracted features from the frames are used to determine the optimal mask of all the frames of the noisy speech signal and the mask is employed for training the deep belief neural networks (DBN). The two metrics root mean square error (RMSE) and perceptual evaluation of speech quality (PESQ) are used to evaluate the method. The proposed method yields a better value of PESQ at all level of noise and RMSE decreases with increased noise level.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号