首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
藏语拉萨话大词表连续语音识别声学模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
李冠宇  孟猛 《计算机工程》2012,38(5):189-191
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。  相似文献   

2.
HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成以及字符识别等领域。文章在详细介绍了语音识别的过程、原理及相关概念的基础之上,介绍了HTK的基本原理和软件结构,以及使用HTK完成语音识别任务的整个过程。最后,讨论声学单元等一系列的模型参数的选择,使用HTK搭建一个简单连续汉语语音输入系统。  相似文献   

3.
以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。  相似文献   

4.
基于HTK的连续语音识别系统及其在TIMIT上的实验   总被引:1,自引:1,他引:0  
介绍一个连续语音识别系统的构成以及HTK工具的使用.然后尝试利用该工具搭建一个连续语音识别系统,使用该系统在一个非特定人的大词汇量连续语音数据库——TIMIT上进行实验,讨论如何选择不同的声学单元进行建模.并且对模型的参数进行一系列的改进。  相似文献   

5.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

6.
对藏语拉萨话中单音子及三音子分布情况进行了统计,分析了在藏语大词表连续词表连续语音识别中建立上下文相关声学模型的必要性.选择音素为建模单元,根据藏语特点,建立以音节为单位的发音字典.讨论了利用决策树建立三音子模型的几个关键问题和基本算法,结合国际音标分类和经验知识,确定了38个藏语拉萨话音子类别集及相应的决策树问题集.建立了共20个发音人8 170句的训练语料,在HTK平台上建立和训练得到了基于决策树的藏语拉萨话三音子模型,并分析了不同隐马尔可夫模型状态数及高斯混合度下的识别结果,确定了一套藏语大词表连续语音识别的完整方案.  相似文献   

7.
为实现对沪语语音的识别和与家居机器人沪语语音交互,通过分析了沪语语言的语音、语调、语法特点,提出了沪语语音的识别基元的建模方法.该方法生成了新的声韵集作为识别基元,并建立了课题相关的沪语语音语料库,同时基于HTK初步构造了沪语语音的声学模型和3-Gramm语言模型.该系统模型在家居服务机器人中得到初步的应用,系统采用V...  相似文献   

8.
对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMU Sphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,具有最出色的识别正确率结果;CMU Sphinx系列语音工具包在提供较为全面的声学模型训练基础上,具有最好的识别效率;而HTK语音识别工具包所提供的训练技术支持最少,并且需要自行开发训练脚本,因此使用难度最大。  相似文献   

9.
在资源相对匮乏的自动语音识别(Automatic speech recognition, ASR)领域, 如面向电话交谈的语音识别系统中, 统计语言模型(Language model, LM)存在着严重的数据稀疏问题. 本文提出了一种基于等概率事件的采样语料生成算法, 自动生成领域相关的语料, 用来强化统计语言模型建模. 实验结果表明, 加入本算法生成的采样语料可以缓解语言模型的稀疏性, 从而提升整个语音识别系统的性能. 在开发集上语言模型的困惑度相对降低7.5%, 字错误率(Character error rate, CER)绝对降低0.2个点; 在测试集上语言模型的困惑度相对降低6%, 字错误率绝对降低0.4点.  相似文献   

10.
针对当前创建语音识别系统时只能采用经验式或启发式方法选择声学模型拓扑结构的情形,提出了一个基于标准遗传算法的声学模型拓扑结构优化算法。与以往的类似应用相比,该算法具备同时优化模型状态数与各状态高斯核数和摒弃高斯核均匀分配的特点。连续数字串TIDigits语料上的以贝叶斯信息准则为目标函数的实验表明,与传统方法创建的基线系统相比,模型拓扑优化的系统能够以较低的复杂度获得较高的识别率,这说明该算法是声学模型拓扑结构优化的有效工具。  相似文献   

11.
在维吾尔语连续语音识别试验的声学层建模基础上,引用DDBHMM模型将上下文相关的三音子作为基本识别单元,并提出一种状态绑定的思想,对状态进行优化。为得到更充分的训练模型,提高识别效率,对语料库进行扩充,在多组对比试验的基础上,分析扩充前后对声学层识别速度、准确率等各个方面的影响。  相似文献   

12.
基于HTK 的特定词语音识别系统   总被引:1,自引:1,他引:0  
语音识别技术经过半个世纪的发展,目前已日趋成熟,其在语音拨号系统、数字遥控、工业控制等领域都有了广泛的应用。由于目前常用的声学模型和语言模型的局限性,计算机只能识别一些词汇或一些句子。语音识别系统在语种改变时,往往会出现错误的识别结果。针对上述问题,结合隐马尔可夫模型原理,在HTK语音处理工具箱的基础上构建了中英文特定词语音识别系统。该系统通过代码控制整个构建过程,使其在更换新的训练数据和词典后能快速生成对应的识别模型。  相似文献   

13.
维吾尔语连续语音识别技术研究   总被引:1,自引:0,他引:1  
维吾尔语连续语音识别技术研究主要阐述维吾尔语连续语音的识别技术.主要包括声学模型和语言模趋。在声学模型中,主要介绍基于隐马尔可夫模型(Hidden Markov Model,HMM)的维吾尔语筵续语音识别声学建模。在语言模型中,主要对比基于文法和基于统计这两种方法的优劣。  相似文献   

14.
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。  相似文献   

15.
基于资源稀少情况下的语音识别,提出针对大量无标注数据的半监督学习的挑选策略,应用到声学模型和语言模型建模.采用少量数据训练种子模型后,解码无标注数据.首先在解码的最佳候选结果中采用置信度与困惑度结合的方法挑选高可信的语句训练声学模型及语言模型.进一步对解码得到的格进行转化,得到多候选文本,用于语言模型训练.在日语识别任务上,相比基于置信度挑选数据的方法,文中方法在识别率上具有较大提升.  相似文献   

16.
Spelling speech recognition can be applied for several purposes including enhancement of speech recognition systems and implementation of name retrieval systems. This paper presents a Thai spelling analysis to develop a Thai spelling speech recognizer. The Thai phonetic characteristics, alphabet system and spelling methods have been analyzed. As a training resource, two alternative corpora, a small spelling speech corpus and an existing large continuous speech corpus, are used to train hidden Markov models (HMMs). Then their recognition results are compared to each other. To solve the problem of utterance speed difference between spelling utterances and continuous speech utterances, the adjustment of utterance speed has been taken into account. Two alternative language models, bigram and trigram, are used for investigating performance of spelling speech recognition. Our approach achieves up to 98.0% letter correction rate, 97.9% letter accuracy and 82.8% utterance correction rate when the language model is trained based on trigram and the acoustic model is trained from the small spelling speech corpus with eight Gaussian mixtures.  相似文献   

17.
该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号