首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
近年来,由于动态贝叶斯网络(DBN)相对于传统的隐马尔可夫模型(HMM)更具可解释性、可分解性以及可扩展性,基于DBN的语音识别引起学者们越来越多的关注.但是,目前关于基于DBN的语音识别的研究主要集中在孤立语音识别上,连续语音识别的框架和识别算法还远没有HMM成熟和灵活.为了解决基于DBN的连续语音识别的灵活性和可扩展性,将在基于HMM的连续语音识别中很好地解决了上述问题的Token传递模型加以修改,使之适用于DBN.在该模型基础上,为基于DBN的连续语音识别提出了一个基本框架,并在此框架下提出了一个新的独立于上层语言模型的识别算法.还介绍了作者开发的一套基于该框架的可用于连续语音识别及其他时序系统的工具包DTK.  相似文献   

2.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

3.
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。  相似文献   

4.
维吾尔语连续语音识别技术研究   总被引:1,自引:0,他引:1  
维吾尔语连续语音识别技术研究主要阐述维吾尔语连续语音的识别技术.主要包括声学模型和语言模趋。在声学模型中,主要介绍基于隐马尔可夫模型(Hidden Markov Model,HMM)的维吾尔语筵续语音识别声学建模。在语言模型中,主要对比基于文法和基于统计这两种方法的优劣。  相似文献   

5.
语料资源缺乏的连续语音识别方法的研究   总被引:2,自引:0,他引:2  
由于少数民族语言有其本身的特点, 不能简单地套用现有的连续语音识别的方法. 本文以蒙古语为例, 研讨了声学和语言模型的建立, 并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统. 本文侧重于语言模型的建立, 基于蒙古语黏着性语言特点, 提出用相似词聚类方法建立多类N-gram模型. 实验结果显示, 应用我们提出的语言模型, 识别精度比用传统的词的N-gram识别法提高了5.5%.  相似文献   

6.
基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统—MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。  相似文献   

7.
针对具有大段连续文本标注、但无时间标签的电视剧语音提出了一种半监督自动语音分割算法。首先采用原始的标注文本构建一个有偏的语言模型,然后将该语言模型以一种半监督的方式用于电视剧语音识别中,最后利用自动语音识别的解码结果对传统的基于距离度量、模型分类以及基于音素识别的语音分割算法进行改进。在英国科幻电视剧“神秘博士”数据集合上的实验结果表明,提出的半监督自动语音分割算法能够取得明显优于传统语音分割算法的性能,不仅有效解决了电视剧语音识别中大段连续音频的自动分割问题,还能对相应的大段连续文本标注进行分段,保证分割后各语音段时间标签及其对应文本的准确性。  相似文献   

8.
为了实现基于人机交互增强算法的便携语言翻译机系统,提出了一种基于傅里叶门控卷积神经网络的语音增强模型与一种基于FSMN+Transformer语音识别模型用于便携语言翻译机。首先,对便携语言翻译机系统进行了整体设计;然后,对系统的关键部分即语音增强模型和语音识别模型分别进行了设计,其中,语音增强模型选择傅里叶门控卷积神经网络优化算法来构建;语音识别模型中,选择矢量型FSMN作为声学模型的基础结构,并引入门控单元和残差网络对其进行优化,同时选择添加交互算法的Transformer算法构建语言模型,共同构成基于FSMN+Transformer的语音识别模型;最后,分别对语音增强模型、语音识别模型以及便携语言翻译机系统进行实验验证。结果表明:基于傅里叶门控卷积神经网络的语音增强模型更具优越性,FSMN+Transformer的语音识别模型的正确率最高,基于提出的语音增强与语音识别模型的便携语言翻译机系统对原始语音的翻译准确率都达到了99%以上。  相似文献   

9.
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

10.
基于HTK的维吾尔语连续语音声学建模   总被引:3,自引:1,他引:2  
维吾尔语属于阿勒泰语系突厥语族,是黏着性语言。本文根据维吾尔语的特点,分析设计了维吾尔语语音识别系统的总体结构,讨论了维吾尔语最佳识别基元的选择方法,提出建立基于决策树聚类的上下文相关模型,并采用混合高斯分布(GMD)拟合观测概率分布,优化维吾尔语连续语音中HMM模型系统以提高识别性能。最后给出实验对比,得出结论,为今后维吾尔语连续语音识别研究提供依据。  相似文献   

11.
This article considers the algorithm “Voice activity detection” and the using VAD algorithm in the system of Kazakh speech recognition. The paper presents a mathematical model VAD and methods for detecting voice data: pauses between sentences, words, individual sounds. VAD algorithm is adapted to the recognition of Kazakh speech counting the basic properties of Kazakh language. Voice activity detection researches in Kazakh speech are being conducted for the first time. The results of the spectral analysis are displayed on the picture.  相似文献   

12.
以建立维吾尔语连续音素识别基础平台为目标,在HTK(基于隐马尔可夫模型的工具箱)的基础上,首次研究了其语言相关环节的几项关键技术;结合维吾尔语的语言特征,完成了用于语言模型建立和语音语料库建设的维吾尔语基础文本设计;根据具体技术指标,录制了较大规模语音语料库;确定音素作为基元,训练了维吾尔语声学模型;在基于字母的N-gram语言模型下,得出了从语音句子向字母序列句子的识别结果;统计了维吾尔语32个音素的识别率,给出了容易混淆的音素及其根源分析,为进一步提高识别率奠定了基础。  相似文献   

13.
以维吾尔语为例研究自然语料缺乏的民族语言连续语音识别方法。采用HTK通过人工标注的少量语料生成种子模型,引导大语音数据构建声学模型,利用palmkit工具生成统计语言模型,以Julius工具实现连续语音识别。实验用64个维语母语者自由发话的6 400个 短句语音建立单音素声学模型,由100 MB文本、6万词词典生成基于词类的3-gram语言模型,测试结果表明,该方法的识别率为 72.5%,比单用HTK提高4.2个百分点。  相似文献   

14.
语义分析和结构化语言模型   总被引:3,自引:0,他引:3  
李明琴  李涓子  王作英  陆大? 《软件学报》2005,16(9):1523-1533
提出了一个语义分析集成系统,并在此基础上构建了结构化的语言模型.该语义分析集成系统能够自动分析句子中各个词的词义以及词之间的语义依存关系,达到90.85%的词义标注正确率和75.84%的语义依存结构标注正确率.为了描述语言的结构信息和长距离依存关系,研究并分析了两种基于语义结构的语言模型.最后,在中文语音识别任务上测试两类语言模型的性能.与三元语言模型相比,性能最好的语义结构语言模型--中心词三元模型,使绝对字错误率下降0.8%,相对错误率下降8%.  相似文献   

15.
方高林  高文  陈熙霖  王春立  马继勇 《软件学报》2002,13(11):2169-2175
手语识别是通过计算机提供一种有效而准确的机制将手语翻译成文本或语音。目前最新发展水平的手语识别系统在实际应用中应解决非特定人连续手语问题。提出一种将连续手语识别分解成各弧立词识别的分治方法,用于非特定人连续手语识别。把精简循环网(simple recurrent network,简称SRN)作为连续手语的段边界检测器,把SRN分段结果作为隐马可夫模型(hidden Markov models,简称HMM)框架中的状态输入,在HMM框架里使用网格Viterbi算法搜索出一条最佳手语词路径。实验结果表明,该方法的识别效果比单纯使用HMM要好。  相似文献   

16.
本文提出了一种基于词和词义混合的统计语言模型,研究了这个模型在词义标注和汉语普通话语音识别中的性能,并且与传统的词义模型和基于词的语言模型进行了对比。这个模型比传统词义模型更准确地描述了词义和词的关系,在词义标注中具有较小的混淆度;在汉语普通话连续音识别中,这个词义模型的性能优于基于词的三元文法模型,并且需要较小的存储空间。  相似文献   

17.
为了在未知一段语音所属语言种类的情况下将其转换为正确的字符序列,将语种辨识(language identification,LID)同语音识别集成在一起建立了中、英文大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统.为了在中、英文连续语音识别系统中能够尽早的对语音所属的语言种类做出判决以便进行识别,从而降低解码的计算量,对语种辨识过程中的语种剪枝进行了研究,表明采用合理的语种剪枝门限在不降低系统性能的情况下,可以有效的降低系统的计算量及识别时间.  相似文献   

18.
This paper describes the use of a neural network language model for large vocabulary continuous speech recognition. The underlying idea of this approach is to attack the data sparseness problem by performing the language model probability estimation in a continuous space. Highly efficient learning algorithms are described that enable the use of training corpora of several hundred million words. It is also shown that this approach can be incorporated into a large vocabulary continuous speech recognizer using a lattice rescoring framework at a very low additional processing time. The neural network language model was thoroughly evaluated in a state-of-the-art large vocabulary continuous speech recognizer for several international benchmark tasks, in particular the Nist evaluations on broadcast news and conversational speech recognition. The new approach is compared to four-gram back-off language models trained with modified Kneser–Ney smoothing which has often been reported to be the best known smoothing method. Usually the neural network language model is interpolated with the back-off language model. In that way, consistent word error rate reductions for all considered tasks and languages were achieved, ranging from 0.4% to almost 1% absolute.  相似文献   

19.
由于哈萨克语构词法的特点,九个元音的声频特性在语音识别中具有重要的作用。该文采用实验语音学的基本理论和方法,研究了哈萨克语多音节词中的元音格局。针对从语音库中挑选的1 062个多音节词,分别对其词首、词腹和词尾音节中的元音共振峰频率值进行统计,并采用Joos方法详细地归纳和分析了哈萨克语词首、词腹和词尾音节元音格局以及存在的差异,绘制出了哈萨克语多音节词元音的共振峰模式。该项研究结果对哈萨克语的语音研究及应用具有较高的参考价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号