共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
一种面向语音识别的新型神经网络 总被引:1,自引:0,他引:1
提出了一种新型神经网络模型,描述了该网络的工作原理和训练方法以及识别算法。为克服神经网络对时序信号建模能力差的缺点,引入了非线性分段处理和代表帧特征提取方法。最后介绍了根据这一模型所设计的一个汉语语音识别系统,试验表明该网络在汉语语音识别方面具有较大的潜力。 相似文献
4.
本文根据加权倒变距离测度,提出了一种用于非特定人语音识别的函数链神经网络。此网络与多层感知器相比,不仅具有较高的识别别率,而且大大缩短了网络的学习时间。我们采用6人(3男,3女)的语音数据对汉语十个数字进行了实验,正确识别率为93.7%。 相似文献
5.
文章提出了一种基于神经网络的二级语音音调识别方法,采用常用的多层感知器结构BP反向传播算法.对非特定人的音调进行建模及识别。通过对网络输入矢量进行均值差处理,改善了非特定识别的效率,并且加速了网络训练的进程。根据BP网络得出的一级识别结果,再以音长超音段信息作为辅助条件进行二级识别,加速了网络学习进程.提高了识别率。 相似文献
6.
7.
针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向.首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情... 相似文献
8.
本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中.依据情感的维度空间模型.分别提取了情感语音的韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化特性.利用本文所提的蛙跳算法(SFLA)训练随机产生的初始数据,优化神经网络的连接权值,能快速地实现网络的收敛.在实验中比较了BP神经网络、RBF神经网络与改进SFLA神经网络分别用于语音情感以别的识别性能,结果表明基于改进SFLA的神经网络的平均识别率高于BP神经网络9.2个百分点,高于RBF神经网络7.9个百分点.因此本文所提的蛙跳神经网络用于语音情感识别能获得明显的识别性能的提升. 相似文献
9.
基于模糊神经网络的声母识别 总被引:1,自引:0,他引:1
模板匹配法技术是汉语声母识别中较为成功的算法,但它的缺陷影响了其恢复错误,改善识别性能,神经网络(NN)和模糊系统的结合,保留了双方的优点,充分利用了模糊神经网络好的容错性能,计算性能,分类性能和决策性能,本文重点研究了两种基于模糊神经网的声母识别方案,通过对其结构,识别率和特点的分析,可看出模糊神经网的声母识别性能明显优于模板匹配法,是更适于语音识别的网络。 相似文献
10.
11.
本文主要利用概率神经网络和动态时间规整技术来实现数字音的识别研究。结论是在利用概率神经网络进行语音识别时可以达到比较高的识别率,此外动态时间规整函数的加入,解决了神经网络的模板规整问题。作为语音识别技术的基础,其中包含了小波的基础理论,语音的预处理,DTW技术,端点检测等基础技术。对于神经网络的加入,更加有利于深入了解神经网络这一新兴技术。 相似文献
12.
随着机器学习的快速发展,许多研究者使用神经网络来解决语音识别领域中的各类问题。然而由于训练数据有限等原因,常规的神经网络分类器普遍存在泛化误差等问题。为了解决此问题,迁移学习中的多任务学习被引入到研究中。本文提出了一种采用多任务学习和循环神经网络的语音情感识别算法(MTL-RNN),将说话人情感识别作为主任务,性别识别和身份识别作为辅助任务,三个任务在神经网络中并行训练。算法模型通过RNN共享层共享网络参数、学习共享特征,通过属性依赖层学习独有特征,以提升模型的分类性能。实验结果表明,本文所提出的MTL-RNN算法在汉语和阿拉伯语、较少说话人和较多说话人的场景下均有较好的识别性能。 相似文献
13.
基于小波神经网络的原理对与文本无关的说话人进行了识别.通过分析网络结构,提出了优化网络初始参数的方法,加快了小波网络的收敛速度;采用分组器与阵列搜索算法相结合,减少了识别时的搜索时间.实验结果表明该识别系统能大大提高识别人数和识别速度,在43人的语音识别中,识别率达到97.67%. 相似文献
14.
神经网络与HMM构成的混合网络在语音识别中应用的研究 总被引:7,自引:0,他引:7
隐马尔可夫模型(HMM)技术是语音识别中应用较为成功的算法,但它的缺点影响了其精度、速度、硬件实现和推广应用。神经网络(NN)具有并行性、强的分类能力和易于硬件实现等优点。将NN与HMM相结合构成混合网络,能克服HMM与NN的缺点,保留双方的优点。本文详细评述了目前在语音识别中应用的由HMM和NN构成的四种混合网络。通过对其结构、识别性能和特点的分析,可以看出HMM和NN构成的混合网的性能明显优于 相似文献
15.
16.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。 相似文献
17.
为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型,该卷积模型以 Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征。最后利用SoftMax分类器实现情感分类,CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与SoftMax分类器相比,准确率分别提升了3.8%与6.1%,仿真结果验证了网络模型的有效性。 相似文献
18.
"黑广播"会扰乱正常信号,破坏空中电波秩序,对社会危害极大,因此,对"黑广播"进行监测与打击是无线电管理的重要工作之一。根据广播语音内容甄别"黑广播"是最可靠的识别方式,传统的"黑广播"识别依靠人工听取广播内容,成本高、效率低,基于自动语音识别技术的方式大多依托在线网络语音服务,难以应对离线实时监测场景。本文提出一套基于语音人工智能的"黑广播"监测识别技术,提取语音声学矩阵信息并利用神经网络进行识别,可在离线情况下实现"黑广播"的实时侦测。 相似文献
19.
20.
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。神经网络是一种基于非线性理论的分布式并行处理网络模型,具有很强的模式分类能力及对不完全信息的鲁棒性,为说话人识别技术提供了一种独特的方法。BP(Back-propagation Neural Network)是一种非循环多级网络训练算法,有输入层,输出层和N个隐含层组成。首先概述了语音识别技术,介绍了BP神经网络训练过程的7个步骤及其模型,如何建立BP神经网络模型。同时介绍了与其相关的特征参数的提取,神经网络的训练和识别过程,最后,通过编程在Linux系统下实现说话人身份的识别。 相似文献