首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 68 毫秒
1.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

2.
本文主要介绍了连续语音识别系统的构建过程,分析了连续语音识别系统构建的方式和采用音素构建连续语音识别声学模型的基本方法。阐述了利用隐马尔可夫工具包搭建的连续语音识别系统,给出了系统评估方法,系统使用日本标准JNAS数据库进行建模并使用北海道大学日本学生的发音进行实验,验证模型的有效性。  相似文献   

3.
基于HTK的语音识别系统设计   总被引:3,自引:0,他引:3  
石现峰  张学智  张峰 《微机发展》2006,16(10):37-38
HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成、字符识别和DNA排序等领域。文中主要介绍了HTK的基本原理和软件结构,并且针对HTK工具箱进行了二次开发,设计开发了一套完整的语音识别输入系统及其相应的测试平台,并验证了该语音识别系统的识别率,实验表明,该系统取得了较好的语音输入效果。  相似文献   

4.
综合了语音识别中常用的高斯混合模型和人工神经网络框架优点的Tandem特征提取方法应用于维吾尔语声学模型训练中,经过一系列后续处理,将原始的MFCC特征转化为Tandem特征,以此作为基于隐马尔可夫统计模型的语音识别系统的输入,并使用最小音素错误区分性训练准则训练声学模型,进而完成在测试集上的识别实验。实验结果显示,Tandem区分性训练方法使识别系统的单词错误率比原先的基于最大似然估计准则的系统相对减少13%。  相似文献   

5.
维吾尔语广播新闻连续语音敏感词检索系统   总被引:1,自引:0,他引:1  
首先介绍语音信号来源于新疆人民广播电台维吾尔语新闻的敏感词语音语料库的建设。然后用该语料库进行基于HMM的模型训练。模型训练中详细介绍识别基元端点检测、特征提取、矢量量化、码本构建、HMM模型训练过程和结果。最后用该语料库和HMM训练模型对维吾尔语广播新闻连续语音信号进行敏感词检索,并对检索结果进行分析。  相似文献   

6.
现代维吾尔语语音识别研究尚处于超始阶段,在此介绍了基于中心距离连续概率模型(CDCPM)的维吾尔语非特定人语音识别。CDCPM用中心距离正态(CDN)分布描述模型特征空间,去掉了HMM的状态转移概率矩阵A,对HMM进行了简化和改进。在维吾尔语综合语音库上进行的实验表明:恰当地估计模型状态数和模型混合密度数,当模型数为525个,模型状态数为16,混合密度数为24,维吾尔语非特定人语音识别首选正识率达到97.90%(集内)和94.76%(集外),取得了较好的识别效果。同时,指出了进一步开展维吾尔语语音识别研究的几个问题。  相似文献   

7.
基于HTK的维吾尔语连续数字语音识别   总被引:4,自引:0,他引:4  
根据HTK工作原理,设计了维吾尔语连续数字识别的训练步骤,进行嵌入式重估训练,建立了基于音素级单位的HMM模型,建立了语言模型,实现了维吾尔语非特定人小词汇量亿以内的数字语音识别.  相似文献   

8.
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法:在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。  相似文献   

9.
维吾尔语连续语音识别技术研究   总被引:1,自引:0,他引:1  
维吾尔语连续语音识别技术研究主要阐述维吾尔语连续语音的识别技术.主要包括声学模型和语言模趋。在声学模型中,主要介绍基于隐马尔可夫模型(Hidden Markov Model,HMM)的维吾尔语筵续语音识别声学建模。在语言模型中,主要对比基于文法和基于统计这两种方法的优劣。  相似文献   

10.
维吾尔语音节语音识别与识别基元的研究   总被引:1,自引:0,他引:1  
王昆仑 《计算机科学》2003,30(7):182-184
1 引言现代维吾尔语(以下简称维语)是维吾尔族人民的主要交际工具,是我国新疆维吾尔自治区的法定工作用语之一,也是新疆其它少数民族共同的交际用语之一。维语属阿尔泰语系,突厥语族。维语语音有元音8个、辅音24个。由辅音和元音构成维语语音音节,每个音节必须且只能有一个元音,单元音可构成音节。维语句子由词构成。句子中有意群重音和句重音。部分音节在语流中产生语流音变现象,常见的有同化、弱化、脱落以及元音和谐等现象。  相似文献   

11.
为提高维吾尔语语音识别的识别率,在分析维吾尔语特点的基础上,设计一种基于子字单元的维吾尔语语音识别总体结构,指出维吾尔语单词的发音模型,给出构建子字发音字典的方法,及其以子字单元为基础构建语言模型与声学模型的方法。在一个语音库上进行实验,采用一种非监督的词切分方法对维吾尔语单词进行词切分,生成子字。实验结果表明,基于子字单元的维吾尔语语音识别可以获得更好的识别结果。  相似文献   

12.
维吾尔语中清化元音的实验语音学研究   总被引:1,自引:0,他引:1  
该文根据语音合成与识别等语音应用研究的需求,从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了带高元音/i/,/u/和/ü/的多音节词(双音节、三音节词),分别对其发生清化和保持原来浊特性时的三种高元音的时长,音高和音强进行了统计分析,归纳了其发生清化时的时长、共振峰和音强在开音节和闭音节中的分布模式,从实验语音学的角度出发,进一步探讨了维吾尔语中三个高元音的清化特性,并验证了语言学者凭听力和生理而总结出来的结论与声学上的结论的一致性。其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。该项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

13.
维吾尔语三音节词韵律特征声学分析   总被引:3,自引:0,他引:3  
本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语三音节词的韵律节奏模式与三音节词重音之间的关系问题,其目的是为了提高语音合成的自然度即更好的为自然语言处理服务。本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。  相似文献   

14.
HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成以及字符识别等领域。文章在详细介绍了语音识别的过程、原理及相关概念的基础之上,介绍了HTK的基本原理和软件结构,以及使用HTK完成语音识别任务的整个过程。最后,讨论声学单元等一系列的模型参数的选择,使用HTK搭建一个简单连续汉语语音输入系统。  相似文献   

15.
以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。  相似文献   

16.
维吾尔语名词构形词缀有限状态自动机的构造   总被引:1,自引:1,他引:1  
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。  相似文献   

17.
数字语音识别是语音识别一个极其重要的分支,其在现实生活中的应用愈加广泛。HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别、语音合成、字符识别和DNA排序等领域。从HTK的基本原理和软件结构出发,设计了一个基于HTK的数字语音识别系统,并验证了其识别效率。随后,通过更换识别单元,更改特征参数的维数和增加高斯混合分量的个数来考虑不同因素对系统性能的影响。最后,通过比较试验,验证了识别单元、高斯混合分量的数目以及MFCC维数的适当组合可提高系统的正确识别率。  相似文献   

18.
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。  相似文献   

19.
基于知识图的汉语基本名词短语分析模型   总被引:2,自引:0,他引:2  
本文提出了一种基于知识图的汉语baseNP分析模型。它以知识图为知识表示方法,利用《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语baseNP结构信息和语义信息的知识图。因此它不仅分析了汉语baseNP结构的内部句法关系,而且分析了汉语baseNP结构成分间的语义关系并以知识图的形式表示出了这种语义关系。实验结果表明这个模型对于汉语baseNP的分析是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号