首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
为减少噪声环境对评估性能的影响,该文将PNCC参数引入普通话发音评估。结果表明,其评分相关性在普通话测试实录音数据库上较传统MFCC参数提高了6.6%。在此基础上,对汉语声学模型拆分方法进行了研究,提出将声母介音+韵母模型拆分方法应用到发音评估中。使用这种拆分方式的评估系统总错误率降低5.6%,专家打分相关性则提高了0.056。该文还对模型最佳状态数的选取进行讨论,并提出模型状态数混合和不同配置综合评分两种混合评分方案,在相关性上较同等条件下3状态模型分别提高了0.021和0.017。  相似文献   

2.
针对汉语语音识别中协同发音现象引起的语音信号的易变性,提出一种基于音节的声学建模方法。首先建立基于音节的声学模型以解决音节内部声韵母之间的音变现象,并提出以音节内双音子模型来初始化基于音节声学模型的参数以缓解训练数据稀疏的问题;然后引入音节之间的过渡模型来处理音节之间的协同发音问题。在“863-test”测试集上进行的汉语连续语音识别实验显示汉语字的相对错误率下降了12.13%,表明了基于音节的声学模型和音节间过渡模型相结合在解决汉语协同发音问题上的有效性。  相似文献   

3.
在基于隐Markov模型(Hidden Markov Model,HMM)的统计参数藏语语音合成中引入了DAEM(Deterministic Annealing EM)算法,对没有时间标注的藏语训练语音进行自动时间标注。以声母和韵母为合成基元,在声母和韵母的声学模型的训练过程中,利用DAEM算法确定HMM模型的嵌入式重估的最佳参数。训练好声学模型后,再利用强制对齐自动获得声母和韵母的时间标注。实验结果表明,该方法对声母和韵母的时间标注接近手工标注的结果。对合成的藏语语音进行主观评测表明,该方法合成的藏语语音和手工标注声、韵母时间的方法合成的藏语语音的音质接近。因此,利用该方法可以在不需要声、韵母的时间标注的情况下建立合成基元的声学模型。  相似文献   

4.
基于声韵分割的语音信号特征提取技术   总被引:1,自引:0,他引:1  
WINDOWS的 WAV文件提供的语音信息可以满足语音特征识别的要求 ,首先在时域内提取出鼻音声母 ,根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点 ,使用极零模型 ,并以所有汉语鼻声母音节的零点谱为参数 ,实现汉语讲话音辨别 .所选择的参数有效 ,系统模板存储量少 ,系统训练和识别的运算量小  相似文献   

5.
对运行设备安装双贮备设备是实现系统高可靠性的有效方法.在双贮备系统冷/温/热三种贮备模型中,选择哪种贮备模型对系统性能指标和经济指标均有重要影响,因此对如何选择双贮备系统的贮备模型从而使系统性能最优或经济效益最大的问题进行研究具有现实意义.而现有研究成果很少涉及双贮备系统贮备模型的优化选择问题.为此,本文创新性地提出一种确定双贮备系统最优贮备模型的选择方法.分别建立系统冷/温/热贮备模型,分析每个模型的系统状态及系统半Markov核函数,利用Markov更新方程、Laplace变换以及Laplace-Stieltjes变换技术推导系统稳态可用度、稳态平均维修次数、维修人员稳态忙期概率以及冷贮备模型的平均激活时间,并从经济角度给出系统单位时间内的净收益函数.最后分别以性能指标和经济指标作为研究目标,通过模型对比分析给出不同条件下的系统贮备模型的优化选择算法,并对每个研究目标下的优化选择算法进行实例计算.计算结果表明以不同性能指标和不同费用作为参考得出的最优贮备模型不尽相同,从而验证了所提方法能够有效地确定不同衡量标准下的系统最优贮备模型.  相似文献   

6.
本文提出了一种基于区分性准则的模型结构优化方法,用以调整HMM自动语音识别系统中声学模型各状态混合高斯核成分数量的分配。通过优化选定的准则,声学模型可以在使用相同参数数量的情况下得到更好的识别性能,也可以在保持相当性能的前提下降低所需要的模型参数。相对于传统的基于似然度及复杂度惩罚的模型结构优化准则来讲,基于区分性准则的优化方法能够更直接地提高模型的区分度和鉴别力,从而得到更好的识别效果。在一个面向嵌入式系统的中文连续数字串识别任务上的实验结果证明,基于最大互信息量准则的模型结构优化能够得到比传统的、基于模型似然度及复杂度的方法更好的识别效果。  相似文献   

7.
藏语拉萨话大词表连续语音识别声学模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
李冠宇  孟猛 《计算机工程》2012,38(5):189-191
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。  相似文献   

8.
设计了一种腭裂语音的声韵母切分算法。通过主观的波形测试和客观的F检验及t检验,证明了腭裂语音与正常语音具有显著性差异。定义声母具有清音音素特性的音节为I类音节,声母具有浊音音素特性的音节为II类音节。首先基于层次聚类模型自动判别I类、II类音节,然后定义类浊音权重函数和类清音概率函数,实现I类音节的声韵母一级切分,再通过短时自相关函数峰值个数的一阶微分实现I类音节声韵母的二级切分。基于声韵母波形差异性,检测短时自相关函数的能量跳变点,实现II类音节的声韵母切分。通过大样本实验,结果表明提出的腭裂语音声韵母自动判别算法具有较高的正确率,I类音节的正确率达到90.72%,II类音节的正确率为92.90%。  相似文献   

9.
针对当前创建语音识别系统时只能采用经验式或启发式方法选择声学模型拓扑结构的情形,提出了一个基于标准遗传算法的声学模型拓扑结构优化算法。与以往的类似应用相比,该算法具备同时优化模型状态数与各状态高斯核数和摒弃高斯核均匀分配的特点。连续数字串TIDigits语料上的以贝叶斯信息准则为目标函数的实验表明,与传统方法创建的基线系统相比,模型拓扑优化的系统能够以较低的复杂度获得较高的识别率,这说明该算法是声学模型拓扑结构优化的有效工具。  相似文献   

10.
为提高中文语音识别系统的识别准确率,研究在卷积神经网络的基础上提出了一种中文语音识别人机交互系统。在该系统中的声学模型中融入了残差网络和maxout函数,以此提高声学模型的性能。对研究提出的基于链接时序分类准则的深度卷积网络模型进行性能对比发现,该模型的绝对误差值为3.6%,低于其他对比模型。该结果说明,优化后的CTC-DCNN(maxout)模型的识别性能更好。故利用该模型作为中文语音识别系统的声学模型可以有效地提高系统的识别准确率,保证其人机互动的准确性,为中文语音识别领域提供新的方法。  相似文献   

11.
维吾尔语连续语音识别技术研究   总被引:1,自引:0,他引:1  
维吾尔语连续语音识别技术研究主要阐述维吾尔语连续语音的识别技术.主要包括声学模型和语言模趋。在声学模型中,主要介绍基于隐马尔可夫模型(Hidden Markov Model,HMM)的维吾尔语筵续语音识别声学建模。在语言模型中,主要对比基于文法和基于统计这两种方法的优劣。  相似文献   

12.
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。  相似文献   

13.
马永  洪榛 《计算机系统应用》2020,29(11):204-209
人体姿态识别在人机交互, 游戏以及医疗健康等领域有着深远意义, 基于便携式传感器进行多种人体姿态高精度的稳定识别是该领域的研究难点. 本文采集了8种姿态的高频传感器数据, 提取原始数据的窗口时域特征组成数据集. 根据人体姿态的传感器数据特点将人体姿态划分为4个阶段, 使用高斯混合模型(Gaussian Mixture Model, GMM)拟合人体姿态的观测序列, 结合隐马尔可夫模型(Hidden Markov Model, HMM), 利用GMM-HMM算法进行姿态识别. 本文对比了不同窗口值下的一阶隐马尔可夫模型(1 Order Hidden Markov Model, 1OHMM)和二阶隐马尔可夫模型(2 Order Hidden Markov Model, 2OHMM)的效果, 当窗口值为8时, 2OHMM的性能最优, 整体召回率达到了95.30%, 平均准确率达到了95.23%. 与其它研究相比, 本文算法能识别的姿态种类较多, 算法识别性能较佳且算法耗时较短.  相似文献   

14.
详细介绍了一个语音识别开发工具包SRDK(SpeechRecognitionDevelopmentkits)。该工具包可以方便地完成语音识别的各种任务,并且可以用来对语音识别技术进行研究。SRDK的特点是:ANSIC编写,便于向嵌入式系统进行移植;模块化良好,可以任意拆分组合;内置状态捆绑、训练中的剪枝、段长后处理、SSE(StreamingSingle-InstructionMultiple-DataExtensions)指令集的使用等多种先进技术等。已经使用SRDK开发出实用的语音识别系统。  相似文献   

15.
动作识别使得机器能够对人体动作的意图进行判别理解,进而实现高效的人机交互。提出一种肢体角度模型,实现在三维空间中对人体动作进行表示,该模型具有一定的不变性,计算复杂度低。针对传统的基于混合高斯的隐马尔可夫模型(GMM-HMM)的动作识别,提出深度置信网络模型(DBN)和隐马尔可夫模型相结合的动作识别模型,构建了一种非线性的基于条件限制玻尔兹曼机(CRBM)的DBN深度学习模型,深层次结构使其建模能力更强,且能够结合历史信息建模,更适用于动作识别。实验表明该算法具有较高的识别结果。  相似文献   

16.
隐马尔可夫模型在脱机手写体汉字识别中的应用   总被引:6,自引:1,他引:6  
介绍了一种新的脱机手写汉字识别方法--隐马尔可夫模型(HMM)法,该方法对每个汉字建立8个HMM,通过等比重综合方法将8个分类器的计算结果进行综合,从而得到识别结果,实践证明该方法是可行的。  相似文献   

17.
一种基于语音学知识的汉语辅音分类方法   总被引:3,自引:0,他引:3  
文章提出一种提高汉语辅音识别性能的框架,在此框架下构造了一个基于声学—语音层分析的多级分类器,实现对全部汉语辅音的无重叠分类,测试了将辅音分类结果与概率统计模型结合的效果。重点讨论了用于汉语辅音分类的几种特征参数提取技术和实验结果。文章所提取的特征参数包括非嗓音段持续时间(DUP)、归一化的有效频带能量趋势等,涉及时域、频域和小波变换域等不同分析处理方法,特征参数简单、有效,具有较好的与后接元音无关和非特定人性质。分类器将21个汉语辅音分为5类,狖m,n,l,r狚,狖b,d,g狚,狖p,t,k,f,h狚,狖zh,ch,sh狚,狖z,c,s,j,q,x狚;其分类正确率分别达97.21%、97.10%,97.70%,93.31%和94.80%。实验所用的语音资料库包括21个话者的孤立字汉语辅音发音资料。  相似文献   

18.
经典隐马尔可夫模型用于语音识别存在的两个主要缺陷是“离散状态假设”和“独立分布假设”。前者忽略了语音信号的非平稳性,后者忽略了语音信号的相关性。文章将混合因子分析方法用于语音建模,提出了基于混合因子分析的隐马尔可夫模型框架,并用动态贝叶斯网络形象地表示。该模型框架不仅从理论上解决了上述问题,而且给出许多语音建模的选择。目前广泛使用的统计声学模型均可视为该模型的特例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号