首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
为了解决语音情感识别系统中训练数据和测试数据来自不同数据 库所引起的识别率降低的问题,提出了一种基于稀疏特征迁移的语音情感识别方法。通过引入稀疏编码获取情感特征在不同数据库条件下的共同稀疏表示;同时引入最大区分差异(Maximum mean discrepancy, MMD)来衡量不同数据库条件下稀疏表示分布之间的距离,并将其作为稀疏编码目标函数的约束条件,从而获得较为鲁棒的稀疏特征。实验结果表明,相比传统语音情感识别方法,基于稀疏特征迁移的语音情感识别方法显著提高了跨库条件下的情感识别率。  相似文献   

2.
精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。  相似文献   

3.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

4.
基于4层网络架构的语音电子邮件系统模型   总被引:1,自引:0,他引:1  
在阐述4层网络架构的基础上,依据语音电子邮件系统的实现原理,提出了基于4层网络架构的语音电子邮件系统模型,并介绍一些关键实现技术。实践证实了该模型的可行性和有效性。  相似文献   

5.
为了提高蒙古语语音识别性能,该文首先将时延神经网络融合前馈型序列记忆网络应用于蒙古语语音识别任务中,通过对长序列语音帧建模来充分挖掘上下文相关信息;此外研究了前馈型序列记忆网络“记忆”模块中历史信息和未来信息长度对模型的影响;最后分析了融合的网络结构中隐藏层个数及隐藏层节点数对声学模型性能的影响。实验结果表明,时延神经网络融合前馈型序列记忆网络相比深度神经网络、时延神经网络和前馈型序列记忆网络具有更好的性能,单词错误率与基线深度神经网络模型相比降低22.2%。  相似文献   

6.
申广忠 《微计算机信息》2007,23(12):251-252
目前,蒙古语语音识别的研究尚处于空白阶段,因此蒙古语语音识别系统的研究与开发具有重要意义。而语言模型的确立是语音识别系统中最重要的环节之一。本文根据自己的实践,通过实验的方法最终确立了蒙古语、大量词汇语音识别系统中适宜的语言模型。  相似文献   

7.
本文提出了一个基于心理声学理论和实验的听觉感知模型,它模拟了人对声音响度的听觉感知特征。该模型可在数字信号处理器(DSP)或计算机上实现,模型的输出参数已被用于语音识别。实验表明,用该模型参数表示语音信号可在环境有噪声的情况下保持较高的识别率。  相似文献   

8.
蒙古语语言中非词首音节短元音位置不确定产生了一词多音、构词音变、协同发音以及口语语流等现象,导致声学模型自适应性差。通过使用小规模的自适应数据集,结合MLLR和MAP建模方法,从τ值的选取和自适应声学模型建模的训练过程两方面对基本蒙古语声学模型的自适应性开展研究,给出了一种适合构建自适应蒙古语语音识别声学模型的MLLR-MAP方法。在Sphinx语音识别实验平台上进行建模实验,使用声学模型识别率与系统识别率评价指标对MAP、MLLR、MAP-MLLR和MLLR-MAP等建模方法进行评价。实验结果表明,在声学模型的总正确率、错误率和准确率三个评价指标上都得到了提升,明显优于基线模型。  相似文献   

9.
10.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

11.
从语音信号声学特征空间的非线性流形结构特点出发, 利用流形上的压缩感知原理, 构建新的语音识别声学模型. 将特征空间划分为多个局部区域, 对每个局部区域用一个低维的因子分析模型进行近似, 从而得到混合因子分析模型. 将上下文相关状态的观测矢量限定在该非线性低维流形结构上, 推导得到其观测概率模型. 最终, 每个状态由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部因子矢量所决定. 文中给出了局部区域潜在维数的确定准则及模型参数的迭代估计算法. 基于RM语料库的连续语音识别实验表明, 相比于传统的高斯混合模型(Gaussian mixture model, GMM)和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM), 新声学模型在测试集上的平均词错误率(Word error rate, WER)分别相对下降了33.1%和9.2%.  相似文献   

12.
本文介绍拼音模型的原理及应用。拼音模型是累加语言模型中同音字的相关数据后得到的3元模型,是在原来的声学模型和语言模型之间增加的一个新环节,可用来求取相关拼音串的先验概率,实验结果表明,用它作为声学层识别的后处理,可使第1名的识别率提高13个百分点,可使前5名的识别率与原来声学模型输出前10 的识别率相当。  相似文献   

13.
在维吾尔语连续语音识别试验的声学层建模基础上,引用DDBHMM模型将上下文相关的三音子作为基本识别单元,并提出一种状态绑定的思想,对状态进行优化。为得到更充分的训练模型,提高识别效率,对语料库进行扩充,在多组对比试验的基础上,分析扩充前后对声学层识别速度、准确率等各个方面的影响。  相似文献   

14.
低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的 发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。  相似文献   

15.
提出了一种基于邻接空间模型的鲁棒语音识别方法,解决测试集和训练集差别导致的识别正确率过低的问题.在以声学模型为中心的邻接空间中计算贝叶斯预测概率密度值,作为观察概率输出分值进行识别.实验表明,相对于传统语音识别方法,鲁棒识别方法在保证干净测试集的识别率没有很大下降的前提下,对含噪测试集的识别率获得了较大的提高.  相似文献   

16.
张爱英  倪崇嘉 《计算机科学》2017,44(10):318-322
随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。  相似文献   

17.
语音识别使声音变得"可读",让计算机能够"听懂"人类的语言并做出反应,是人工智能实现人机交互的关键技术之一.本文介绍了语音识别的发展历程,阐述了语音识别的原理概念与基础框架,分析了语音识别领域的研究热点和难点,最后,对语音识别技术进行了总结并就其未来研究进行了展望.  相似文献   

18.
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号