首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
藏语拉萨话大词表连续语音识别声学模型研究   总被引:1,自引:0,他引:1       下载免费PDF全文
李冠宇  孟猛 《计算机工程》2012,38(5):189-191
根据藏语的特点,提出藏语拉萨话大词表连续语音识别声学模型,利用高层次的藏语语言知识减少模式匹配的模糊性。以音素和声韵母为声学建模单元,在HTK平台上建立上下文相关的连续隐马尔可夫声学模型,以实现藏语拉萨话特定人大词表连续语音识别。实验结果表明,在最优情况下,该模型词错误率只有7.8%。  相似文献   

2.
基于三音子模型的语料自动选择算法   总被引:8,自引:0,他引:8  
吴华  徐波  黄泰翼 《软件学报》2000,11(2):271-276
在语音识别中,如何经济地挑选语音训练语料,使其覆盖尽可能多的语音现象是一个非常重要的问题.传统的语音训练语料采用手工挑选后再进行检验和补充的方法,此方法难以保证所选语料语音现象的覆盖率.该文提出了一种自动地从大规模语料库中挑选语料的搜索算法,此算法不但能使所选语料覆盖几乎所有语音现象,而且能保证训练语料中三音子和类三音子有足够的样本个数,使训练数据不过于稀疏,为训练正确而可靠的语音模型打下了坚实的基础.  相似文献   

3.
HMM的观测概率能否很好描述模型的实际分布对识别性能有很大的影响。为了比较汉语三音子模型在不同观测概率情况下的差异,本文构造了三种不同模型,及其训练和识别算法。通过从多方面对这三个模型进行比较,得出结论,为今后汉语三音子模型观测概率的选择提供依据。  相似文献   

4.
基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库。统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑。  相似文献   

5.
在大词汇量连续语音识别应用中,优质的语音训练语料是所有识别工作的基础和前提, 能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料,并考虑协同发音的影响和常用词的适用性,根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效,囊括的语音现象更加全面,为训练准确而牢靠的语音模型打下了稳固的根基。  相似文献   

6.
秦伟  韦岗 《微计算机信息》2006,22(22):301-303
提出一种捆绑子空间分布隐马尔可夫模型的训练方法。该方法利用多变量相关系数将语音信号的特征向量进行子空间划分;利用k均值算法捆绑特征向量子空间的高斯分布,得到子空间高斯分布的原型,减少模型的参数。通过实验,用该方法训练的捆绑子空间隐马尔可夫模型,不仅提高了识别器的精确度和识别速度,而且节省了存储空间。  相似文献   

7.
提出一种基于隐马尔可夫模型(Hidden Markov model,HMM)和人工神经网络(Artificial Neural Network,ANN)混合模型的汉语大词表连续语音识别系统.在混合模型系统中,多种模型协同工作.ANN负责建模音素发音物理特性,HMM联合语言学模型识别待识语料.这样,混合模型系统能够结合HMM和ANN两种模型的优点:HMM对时间序列结构建模能力强;ANN的非线性预测能力强,建模能力强,鲁棒性,便于硬件实现.实验结果表明,HMM/ANN混合模型系统有效结合了两种模型的优点,提高了识别率.  相似文献   

8.
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。  相似文献   

9.
隐马尔可夫模型(HMM)基本技术是语音识别中较为成功的算法,HMM具有较强的对时间序列结构的建模能力。文章在HMM Tool Kit(HTK)的基本技术之上,建立了一个以HMM为基础的提供连续语音识别服务的网站系统。该网络系统前台界面程序主要通过ASP.NET 2.0和Visual C#在Windows server 2003平台上建立,后台识别程序通过ATL实现。经过测试,该系统展示出其在语音数据检索中的应用价值。  相似文献   

10.
该文针对关键词检测和实用语音识别中OOV(Out-Of-vocabulary)问题的检测和拒绝进行研究,通过使用判别式分析,利用L-Best本地分数和N-best言语假设判别分数,进行言语判别(utterarce verification);该文进行了两组实验,分别针对OOV问题,在小词汇量特定人孤立词识别系统、小词汇量非特定人的孤立词识别系统中进行研究。  相似文献   

11.
藏语语音合成及语音学研究中,经常需要切分音素。人工切分费时费力,但是由于藏语语料缺乏,训练的藏语声学模型不够精确和鲁棒,自动切分的音素边界不够准确。以藏语拉萨方言为研究对象,在确定拉萨方言音素集、建立拉萨方言发音词典的基础上,通过计算音素模型间的距离,确定了拉萨方言和英语的共同音素,融合拉萨方言和英语GMM HMM模型,并自动判断语音中的静音和短时停顿,构造语音对应的词网络,查询发音词典,将词网络扩展为模型(音素)网络,使用Viterbi算法将每一帧特征参数对应到模型的每一个状态上,进而对音素进行切分。实验表明,切分效果要优于单纯的藏语模型方法。  相似文献   

12.
该文对藏语拉萨话单音节的嗓音特征进行了实验研究,实验首先对藏语拉萨话单音节进行语音标注,然后根据语音标注的位置信息,利用对应的程序提取音节结构中的元音和辅音的嗓音声学参数,对基频、开商和速度商分别统计分析,并做了显著性分析。实验结果表明不同元音和辅音的嗓音参数与发声方式以及其在音节中位置有关,元音和音节结构的不同会显著影响开商和速度商的值,但对于基频数据的影响并不显著。同时嗓音参数之间也存在一定的关联性,即基频和开商、速度商之间是反比关系,开商和速度商之间是正比的关系。  相似文献   

13.
藏语连续语音语料库设计与实现   总被引:1,自引:0,他引:1  
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。  相似文献   

14.
基于视频三音子的双模态语料自动选取算法   总被引:2,自引:2,他引:0       下载免费PDF全文
为实现可视语音合成,建立符合条件的双模态语料库,提出双模态语料自动选取算法。根据视频中唇部发音特征,对已有的三音子模型归类,形成视频三音子,在其基础上从原始语料中自动选取语料,利用评估函数对原始语料中的句子打分。与其他双模态语料库相比,该语料库在覆盖率等指标上有较大改进,为实现具有真实感的可视语音合成奠定基础。  相似文献   

15.
基于视频三音子的汉语双模态语料库的建立   总被引:2,自引:0,他引:2  
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。  相似文献   

16.
基于小波域隐马模型的树木类图像分割算法*   总被引:2,自引:0,他引:2  
为了克服自然状态植物图像提取困难,尤其是树图像在自然生长状态下背景非常复杂(天空、建筑物、植物等)的问题.提出一种基于小波域隐马模型的树木类图像分割算法.该算法利用形态小波的优良特性,结合隐藏马尔可夫树模型,实现了基于图像纹理的树木类图像分割,并得到了较为理想的实验效果.  相似文献   

17.
藏语是语序非常灵活的一种语言,藏语词法分析和句法分析等浅层研究不能很好地满足藏语自然语言理解的需求。从简单句型的藏语句子出发,研究了基于投射的藏语语义依存分析,构建了藏语语义依存树库,设计了语义依存弧类型分析特征模板。最后通过最大熵分类模型,对人工分析过的语义依存弧的句子进行依存弧的类型分析并进行标注,为今后的语义依存分析提供新的思考视角和更好的理论支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号