期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵莉付世凤《中国新技术新产品》2022,(24):8-10+30

随着人工智能发展,语音情感识别技术的应用范围越来越广。该文以语音情感识别为出发点,介绍了语音信号特征提取方法和语音情感分类模型训练过程中中权值和参数更新的算法,并在tensorflow框架中进行试验设计和试验,通过试验分析激活函数、中间层层数、训练轮次对模型训练结果的影响。试验结果表明,当训练轮次为1 000轮、中间层层数为6个且激活函数选择elu时判定准确率较高。相似文献

2.

基于HTK的语音识别的语料搜集与语言模型

王仕超《硅谷》2010,(20):165-165,162

HTK是由剑桥大学开发的语音识别研究工具,此工具实现了语音识别中的诸多算法。我们可以利用该工具建立自己需要的语言模型。讲述如何通过从互联网上得到自己需要的语料,利用搜集的语料训练语言模型。Web信息搜索采用网络爬虫(Web Crawler或称Robot)的技术在万维网上自动漫游,根据其搜索目标尽量多地发现新内容。相似文献

3.

鲁棒性语音识别的在线自适应匹配

阮玲英《硅谷》2009,(24)

语音识别的一个最重要的领域就是鲁棒性问题,这个问题的核心是如何处理训练和识别不匹配的问题。提出一个在线自适应匹配算法,此算法能够根据当前语音信号,自适应的估计出语音畸变参数,从而调正模型来匹配当前的测试环境,在Aurora2测试集上,正确率显著提升。相似文献

4.

鲁棒性语音识别的在线自适应匹配

阮玲英《硅谷》2010,(24):14-14,109

语音识别的一个最重要的领域就是鲁棒性问题，这个问题的核心是如何处理训练和识别不匹配的问题。提出一个在线自适应匹配算法，此算法能够根据当前语音信号，自适应的估计出语音畸变参数，从而调正模型来匹配当前的测试环境，在Aurora2测试集上，正确率显著提升。相似文献

5.

基于注意力机制的LSTM语音情感主要特征选择

下载免费PDF全文

胡婷婷冯亚琴沈凌洁王蔚《声学技术》2019,38(4):414-421

传统的语音情感识别方式采用的语音特征具有数据量大且无关特征多的特点,因此选择出与情感相关的语音特征具有重要意义。通过提出将注意力机制结合长短时记忆网络(Long Short Term Memory, LSTM),根据注意力权重进行特征选择,在两个数据集上进行了实验。结果发现:(1)基于注意力机制的LSTM相比于单独的LSTM模型,识别率提高了5.4%,可见此算法有效提高了模型的识别效果;(2)注意力机制是一种有效的特征选择方法。采用注意力机制选择出了具有实际物理意义的声学特征子集,此特征集相比于原有公用特征集在降低了维数的情况下,提高了识别准确率;(3)根据选择结果对声学特征进行分析,发现有声片段长度特征、无声片段长度特征、梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)、F0基频等特征与情感识别具有较大相关性。相似文献

6.

骨导语音库的建立与骨气导语音的互信息分析

下载免费PDF全文

邢益搏张雄伟郑昌艳曹铁勇《声学技术》2019,38(3):312-316

首先设计了适用于骨导语音增强的语料采集方案,采集了1 320句涵盖音节全面的语料,并制定了相应的录音规范;其次介绍了骨导语音库建立的意义,说明了语音库建立的实施方案,建成了由40个说话人录制的包括气导语音和骨导语音各8 000句的语音库;然后在对比骨导语音与气导语音声学特性的基础上,分析了骨气导语音在高频和低频的互信息量,为骨导语音的增强提供了理论依据;最后基于现阶段的研究及文中构建的语音库对今后的研究做出展望。相似文献

7.

基于时间规整网络的GMM说话人识别模型的初始化方法

沈忱章明赵力邹采荣《声学技术》2005,24(Z1):121-122

1前言对于与文本无关的说话人识别,一般采用混合高斯模型(Gaussian Mixture Model:GMM)[1,2]来进行识别,在训练GMM模型之前,模型的初始参数必须首先确定.初始化模型参数的有效方法是对训练数据进行分段,训练数据语音帧根据其特征分到M个不同的类中(M为混合数的个数),与初始的M个高斯分量相对应.每个类的均值和方差作为模型的初始化参数. 相似文献

8.

基于语音识别技术的移动机器人控制系统研发

《中国标准化》2018,(24)

语音识别技术目前已经广泛应用在移动机器人设备中,对移动机器人的控制性能产生了重要的支持作用。为了进一步分析语音识别技术在开发移动机器人控制系统功能方面的优势。本研究设计了基于语音识别技术的移动机器人控制系统,解析了系统功能与硬件配置的相关数据,分析了移动机器人控制系统语音识别控制模块的设计思路,诠释了语音识别流程及其框架结构的稳定性。以便为相关研究提供理论参考,支持移动机器人控制系统对语音识别技术的阶段性开发,完善其主体性能与控制效果。相似文献

9.

基于统计和规则相结合的汉语语音合成的韵律模型

陶建华《声学技术》2003,22(Z2):359-361

1引言近几年来,计算机的运算速度和容量都获得了飞速的发展,从大量语料中提取连续语句的韵律特征,并采用数据驱动的方式实现语音合成系统,不仅已经成为现实,而且为语音合成技术的发展带来了重要的契机.以数据驱动技术为代表的语音合成技术,融合了大量现代人工智能领域的技术,如自然语言理解中的分词、词性分析、语法和语义分析技术、人工神经网络技术、决策树技术、隐马尔可夫技术等.通过这些方法的应用,结合语料的设计,建立韵律的训练模型,使语音合成的质量获得了相当的提高.同时这些方法的成功应用,在很大程度上也改变了汉语语音合成研究的研究重点,使汉语语音合成的研究突破早期重点在声学模型上的研究上,而变成一个系统而复杂的工程.语音合成的整体研究和开发,迈上了一个全新的台阶. 相似文献

10.

融合人脸表情的手语到汉藏双语情感语音转换

下载免费PDF全文

宋南吴沛文杨鸿武《声学技术》2018,37(4):372-379

针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。相似文献