共查询到10条相似文献,搜索用时 15 毫秒
1.
随着人工智能发展,语音情感识别技术的应用范围越来越广。该文以语音情感识别为出发点,介绍了语音信号特征提取方法和语音情感分类模型训练过程中中权值和参数更新的算法,并在tensorflow框架中进行试验设计和试验,通过试验分析激活函数、中间层层数、训练轮次对模型训练结果的影响。试验结果表明,当训练轮次为1 000轮、中间层层数为6个且激活函数选择elu时判定准确率较高。 相似文献
2.
HTK是由剑桥大学开发的语音识别研究工具,此工具实现了语音识别中的诸多算法。我们可以利用该工具建立自己需要的语言模型。讲述如何通过从互联网上得到自己需要的语料,利用搜集的语料训练语言模型。Web信息搜索采用网络爬虫(Web Crawler或称Robot)的技术在万维网上自动漫游,根据其搜索目标尽量多地发现新内容。 相似文献
3.
语音识别的一个最重要的领域就是鲁棒性问题,这个问题的核心是如何处理训练和识别不匹配的问题。提出一个在线自适应匹配算法,此算法能够根据当前语音信号,自适应的估计出语音畸变参数,从而调正模型来匹配当前的测试环境,在Aurora2测试集上,正确率显著提升。 相似文献
4.
语音识别的一个最重要的领域就是鲁棒性问题,这个问题的核心是如何处理训练和识别不匹配的问题。提出一个在线自适应匹配算法,此算法能够根据当前语音信号,自适应的估计出语音畸变参数,从而调正模型来匹配当前的测试环境,在Aurora2测试集上,正确率显著提升。 相似文献
5.
传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(Long Short Term Memory, LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、F0基频等特征与情感识别具有较大相关性。 相似文献
6.
7.
8.
9.
1引言 近几年来,计算机的运算速度和容量都获得了飞速的发展,从大量语料中提取连续语句的韵律特征,并采用数据驱动的方式实现语音合成系统,不仅已经成为现实,而且为语音合成技术的发展带来了重要的契机.以数据驱动技术为代表的语音合成技术,融合了大量现代人工智能领域的技术,如自然语言理解中的分词、词性分析、语法和语义分析技术、人工神经网络技术、决策树技术、隐马尔可夫技术等.通过这些方法的应用,结合语料的设计,建立韵律的训练模型,使语音合成的质量获得了相当的提高.同时这些方法的成功应用,在很大程度上也改变了汉语语音合成研究的研究重点,使汉语语音合成的研究突破早期重点在声学模型上的研究上,而变成一个系统而复杂的工程.语音合成的整体研究和开发,迈上了一个全新的台阶. 相似文献
10.
针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。 相似文献