首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification, CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。  相似文献   

2.
为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型,该卷积模型以 Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征。最后利用SoftMax分类器实现情感分类,CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与SoftMax分类器相比,准确率分别提升了3.8%与6.1%,仿真结果验证了网络模型的有效性。  相似文献   

3.
语音情感识别的主要目的是对语音信号按照不同的情感进行分类,比如生气、恐惧、厌恶、高兴等,探究语音情感识别的任务,使用的方法是在小的语音区间上计算的一系列声学特征训练的深度递归神经网络。同时,使用CTC损失函数考虑到了同时包含情绪化和中性成分的长话语,在IEMOCAAP语料库上设置对照实验,验证了该方法的高性能。  相似文献   

4.
针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向.首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情...  相似文献   

5.
现有的电视语音响度补偿是针对人耳听阈和听力障碍的损失进行均衡补偿,这类方法会放大同频段的非人声.针对这类方法的缺陷,提出利用深度学习语音增强技术将人声从电视节目音频中分离出来,使用户直接听到清晰人声.对此提出密集连接卷积网络(Densely Connected Convolutional Network,DenseNe...  相似文献   

6.
针对辐射源目标精确识别需求,结合以深度学习为代表的机器学习理论技术,提出将改进型AlexNet作为特征提取器,实现目标细微特征提取固化,形成智能化识别网络模型。以广播式自动相关监视(ADS-B)信号为实验对象,在机场实地采集了13个目标的ADS-B脉冲信号数据作为辐射源目标个体识别的训练和测试样本,利用AlexNet和改进的AlexNet验证了算法的有效性。结果表明,改进的AlexNet网络训练时间更快,综合识别率达到98.32%.  相似文献   

7.
本文论述了智能语音转写平台系统近年来的技术进步和发展,对SRT唱词系统进行了介绍,对语音识别技术以及智能语音转写平台系统中的一些关键问题及原理进行了分析和讨论.  相似文献   

8.
为了充分利用含噪语音特征来提高语音增强网络的性能,基于含噪语音在时间和频率两个维度上的相关性,本文结合卷积神经网络的局部特征提取能力和门控循环单元的长期依赖建模能力,设计了一种适用于语音增强的卷积门控循环网络.该网络采用卷积网络结构代替全连接网络结构来改进门控循环单元中的特征计算过程,从而能够更好地保留含噪语音特征中的时频结构信息.实验结果表明,与其它语音增强网络相比,本文网络在语音成分的保留和噪声成分的抑制上具有明显优势,增强后语音具有更好的语音质量和可懂度.  相似文献   

9.
在语音识别研究中,为了消除特征之间的相关性,将稀疏表示引入到模式识别中;针对深度神经网络忽略了输入数据空间位置信息的缺点,将卷积神经网络引入到模式识别中,构建了基于稀疏表示的卷积神经网络。由于经过稀疏编码后的特征互不相关,可以更有效地表示样本数据,而卷积神经网络能有效利用空间信息。因此,基于稀疏表示的卷积神经网络能大幅提升系统识别性能。该研究通过对稀疏编码和卷积神经网络现状的研究,对两种方法进行了总结。  相似文献   

10.
为解决便于发现我国基本农田被非法侵占的问题,针对现有神经网络收敛速度慢、识别准确率不高的缺点,提出一种基于卷积神经网络的遥感图像农田分类及识别方法。该算法使用较大的卷积核,有效地提取梯度信息;设计深度为6层的卷积神经网络,提高了网络的分类效果,且大大降低了网络的训练次数。实验结果表明,利用该识别模型对农田、建筑、荒漠以及植被的识别准确率达到98.15%,比经典AlexNet网络模型提高了6.1%;训练网络所需的迭代次数由1.49×10~6次左右降低到4 500次。因此,与经典AlexNet网络相比,改进的AlexNet网络用于遥感图像分类和目标图像识别,耗时更短、识别准确率更高。  相似文献   

11.
The possibility of enhancing speech-recognition efficiency by using the supplemented-vocabulary method is studied. The minimum-information-mismatch criterion is proposed for selecting one; two; or, in a general case, several realizations of recognition words to be added to a working vocabulary. By use a particular practical example, it is shown that the positive effect achieved does not substantially weight the vocabulary and enhance the computational complexity.  相似文献   

12.
临床上检测异位性心搏,对心血管疾病的早发现、早诊断、早治疗有重大意义。异位性心搏的自动识别能有效减轻人工识别的负担。采用37只小鼠各10 min的心电图(ECG)信号,由3位专家完成异位性心搏的标定及数据库的建立。在此基础上,使用7种机器学习方法,组合脉冲排除滤波器和模板匹配算法的值,对异位性心搏点进行自动识别。实验结果表明,7种机器学习的方法都能得到较好的预测性能(所有曲线下面积(AUC)大于0.899),其中集成学习AdaBoost的预测能力最好(AUC=0.940,准确度、特异性均为0.888)。  相似文献   

13.
Recognizing which part of an object is graspable or not is important for intelligent robot to perform some complicated tasks. In order to obtain good grasping performance, learning rich representations efficiently from multi-modal RGB-D images is crucial. To address this problem, in this paper, we propose an effective multi-modal deep extreme learning machine structure. In this structure, unsupervised hierarchical extreme learning machine (ELM) is conducted for feature extraction for RGB and depth modalities separately. Then, the shared layer is developed by combining both RGB and depth features. Finally, the ELM is used as supervised feature classifier for final decision. Experimental validation on Cornell grasping dataset illustrates that the proposed multiple modality fusion method achieves better grasp recognition performance.  相似文献   

14.
Speech emotion recognition (SER) in noisy environment is a vital issue in artificial intelligence (AI). In this paper, the reconstruction of speech samples removes the added noise. Acoustic features extracted from the reconstructed samples are selected to build an optimal feature subset with better emotional recognizability. A multiple-kernel (MK) support vector machine (SVM) classifier solved by semi-definite programming (SDP) is adopted in SER procedure. The proposed method in this paper is demonstrated on Berlin Database of Emotional Speech. Recognition accuracies of the original, noisy, and reconstructed samples classified by both single-kernel (SK) and MK classifiers are compared and analyzed. The experimental results show that the proposed method is effective and robust when noise exists.  相似文献   

15.
16.
Helium speech is the term commonly used for the distorted speech uttered by deep-sea divers breathing in a helium/oxygen mixture. Present unscrambler designs use pitch synchronous time-expansion signal processing with digital storage. The compact unscrambler reported here has been configured using analogue charge-transfer devices for waveform storage and c.m.o.s. digital circuitry for control logic as a precursor to development of the whole system as a single integrated circuit. The compact unscrambler itself is shown to offer distinct engineering and operational advantages.  相似文献   

17.
针对高压线路障碍物识别模型精度较低和稳定性较差等问题,提出一种基于改进狮群算法优化的多核极限学习机(ILSO-MKELM)的障碍物识别方法.通过混沌、差分和模拟退火算法对原狮群算法(LSO)进行了改进.基于所提方法用高压线路上常见的数种障碍物图片数据建立识别模型,并与极限学习机(ELM)、KELM和LSO-MKELM建...  相似文献   

18.
噪声下差分复合子带语音识别方法   总被引:4,自引:0,他引:4  
蒋文建  韦岗 《通信学报》2002,23(1):18-24
本文根据子带特征反映语音信号局部特性和全带特征反映语音信号整体特性的事实,提出了 一种差分复合子带语音识别新方法。先用频谱差分减少噪声的干扰,再将多子带特征识别概率与全带特征识别概率相结合进行综合判决,以得到最终识别结果。将新方法应用于TIMIT数据包0-9十个英文数字和E-Set在NoiseX92的白噪声和F16战机噪声下的识别实验。实验结果表明新方法比传统方法识别性能有很大提高。  相似文献   

19.
Understanding the underlying semantics of performing arts like dance is a challenging task. Analysis of dance is useful to preserve cultural heritage, make video recommendation systems, and build tutoring systems. To create such a dance analysis application, three aspects of dance analysis must be addressed: (1) segment the dance video to find representative action elements, (2) recognize the detected action elements, and (3) recognize sequences formed by combining action elements according to specific rules. This paper attempts to address the three fundamental problems of dance analysis raised above, with a focus on Indian Classical Dance, em Bharatanatyam. Since dance is driven by music, we use both musical and motion information to extract action elements. The action elements are then recognized using machine learning and deep learning techniques. Finally, the Hidden Markov Model (HMM) and Long Short-Term Memory (LSTM) are used to recognize the dance sequence.  相似文献   

20.
模型补偿技术已成功应用到噪声环境下的语音识别任务中。流行的模型补偿技术如Log-Add和Log-Normal PMC(并行模型合并)方法对动态特征参数通常只能给出近似的补偿。因此他们的识别率在较低的信噪比条件下变得很低。本文利用静态特征的导函数推导出了一种新的动态模型参数补偿方法。新的方法可以同任何已知的静态模型补偿算法结合产生出新的用于识别的噪声语音模型。实验证明这一新算法的应用,使其识别率比仅使用原有的模型补偿算法有较为明显的提高,并且新算法的复杂度较原有的模型补偿算法只有轻微的增加。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号