首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统—MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。  相似文献   

2.
基于HTK的连续语音识别系统及其在TIMIT上的实验   总被引:1,自引:1,他引:0  
介绍一个连续语音识别系统的构成以及HTK工具的使用.然后尝试利用该工具搭建一个连续语音识别系统,使用该系统在一个非特定人的大词汇量连续语音数据库——TIMIT上进行实验,讨论如何选择不同的声学单元进行建模.并且对模型的参数进行一系列的改进。  相似文献   

3.
汉语大词汇量连续语音识别系统研究进展   总被引:6,自引:1,他引:5  
大词汇量连续语音识别(LVCSR)技术近年来发展迅速,并在许多领域得到了广泛的应用,国内外许多大公司加大了对语音识别技术的研究,不少商业化的语音识别系统已经面世,并得到较为广泛的使用。该文综述了近年来大词汇量连续语音识别技术的研究进展,描述了汉语大词汇量连续语音识别系统,主要是基于统计方法的语音识别系统的框架与设计方法,对语音识别系统的一些关键技术和原理进行了分析,并对近年来国内外对语音识别研究发展动向进行了讨论。  相似文献   

4.
语音识别系统在音频质量较差时,经常出现识别错误的情况,为提高识别精度,基于连续隐马尔科夫模型设计英语翻译机器人语音识别系统。在硬件中,设计音频信号接收器和机器人音频识别模块主处理器。在软件中,对音频信号量化并预加重处理,计算帧移距离与每帧长度之间的比值,获取模拟信号转换频率与基本单位量化指标;基于连续隐马尔可夫模型构建语音文本解编码器,计算窗函数的宽度,在网格中获取马尔科夫链概率路径,比较不同概率路径的复杂度;设计英语翻译机器人语音识别算法,得到英语翻译机器人的语音识别结果。由实验数据可知:该系统在三种不同音频质量下的语音识别准确率均在75%以上,较其他系统更稳定,在同等音频质量下,准确率更高,可见连续隐马尔可夫模型的语音识别系统优于其他系统。  相似文献   

5.
维吾尔语是黏着性语言,利用丰富的词缀可以用同样的词干产生超大词汇,给维吾尔语语音识别的研究工作带来了很大困难。结合维吾尔语自身特点,建立了维吾尔语连续语音语料库,利用HTK(HMMToolKit)工具实现了基于隐马尔可夫模型(HMM)的维吾尔语连续语音识别系统。在声学层,选取三音子作为基本的识别单元,建立了维吾尔语的三音子声学模型,并使用决策树、三音子绑定、修补哑音、增加高斯混合分量等方法提高模型的识别精度。在语言层,使用了适合于维吾尔语语音特征的基于统计的二元文法语言模型。最后,利用该系统进行了维吾尔语连续语音识别实验。  相似文献   

6.
针对英语翻译机器人智能纠错需求,基于语言特征以及迁移学习,构建用于英语翻译机器人纠错系统的方法。其中,利用DNN-HMM声学模型搭建机器人语音识别模型,并以汉语语音识别为基础任务,通过迁移学习构建对应的英语语音识别系统。实验结果证明,使用训练共享隐层所有层的方法与仅使用英语数据进行基线系统训练的方法相比1 h训练集错误率下降了24.38%,20 h训练集错误率下降了4.73%,显著提高了系统的识别精度,对英语翻译机器人纠错性能有一定的提高。  相似文献   

7.
主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。  相似文献   

8.
介绍了基于连续隐含马尔可夫模型(CHMM)的非特定人孤立词语音识别系统.根据分析该系统计算复杂度,提出了一系列的优化方法,通过MATLAB平台下的研究实验数据表明,优化后的语音识别系统与传统CHMM语音识别系统对比,计算时间是传统CHMM系统的9.97%,而识别率仅从传统CHMM系统的94%下降到91.3%.  相似文献   

9.
目前,汉语识别已经取得了一定的研究成果.但由于中国的地域性差异,十里不同音,使得汉语识别系统在进行方言识别时识别率低、性能差.针对语音识别系统在对方言进行识别时的缺陷,构建了基于HTK的衡阳方言孤立词识别系统.该系统使用HTK3.4.1工具箱,以音素为基本识别单元,提取39维梅尔频率倒谱系数(MFCC)语音特征参数,构建隐马尔可夫模型(HMM),采用Viterbi算法进行模型训练和匹配,实现了衡阳方言孤立词语音识别.通过对比实验,比较了在不同因素模型下和不同高斯混合数下系统的性能.实验结果表明,将39维MFCC和5个高斯混合数与HMM模型结合实验时,系统的性能得到很大的改善.  相似文献   

10.
近年来,传统的GMM_HMM模型在连续语音识别系统中的作用逐渐被基于深度学习的语音识别方法所超越。语音信号是一种时变信号,循环神经网络中的双向长短时记忆网络(BLSTM)能够考虑数据的上下文关系,选择性的记录有效信息。因此论文分别使用GMM-HMM和BLSTM进行声学模型的构建,并对两种模型在相同数据集中进行训练测试,结果表明基于BLSTM的识别率较传统模型有显著提高。  相似文献   

11.
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法:在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。  相似文献   

12.
语音识别是人机交互模式识别领域的一个重要课题,构建了一种基于深度神经网络的语音识别系统,使用了抗噪对比散度法和抗噪最小平方误差法对模型进行无监督训练;使用了均值归一化进行模型优化, 提高了网络对训练集的拟合度,并且降低了语音识别的错误率;使用多状态激活函数进行了模型优化,这不仅使得不带噪测试和带噪声测试的语音识别错误率进一步下降,并能在一定程度上减轻过拟合现象;并通过奇异值分解和重构的方法对模型进行了降维。实验结果表明,此系统可以在不影响语音识别错误率的基础上极大地降低系统的复杂性。  相似文献   

13.
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

14.
精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。  相似文献   

15.
语料资源缺乏的连续语音识别方法的研究   总被引:2,自引:0,他引:2  
由于少数民族语言有其本身的特点, 不能简单地套用现有的连续语音识别的方法. 本文以蒙古语为例, 研讨了声学和语言模型的建立, 并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统. 本文侧重于语言模型的建立, 基于蒙古语黏着性语言特点, 提出用相似词聚类方法建立多类N-gram模型. 实验结果显示, 应用我们提出的语言模型, 识别精度比用传统的词的N-gram识别法提高了5.5%.  相似文献   

16.
首先,给出结合韵律信息的系统框架。然后,针对汉语的特点,解决了韵律相关的语音识别系统中建模单元选择、模型训练等问题,并在多空间概率分布隐马尔可夫模型(multiple-space distribution hidden Markov model, MSD-HMM)框架下构建了韵律相关的语音识别系统。最后,通过语音识别的实验验证了方法的有效性。在“863”测试集上,该方法能够达到76.18%的带调音节识别正确率。  相似文献   

17.
MATLAB环境下的基于HMM模型的语音识别系统   总被引:5,自引:0,他引:5  
在MATLAB环境下利用语音工具箱Voice Box实现基于连续概率密度隐含马尔科夫模型的汉语语音识别系统。在实时录音的情况下,利用该语音识别系统,不同的人对20条2~8个字的语音命令进行识别,准确率可达到95%,识别时间1.5~3s,实现了小词汇量连续语音的非特定人的实时识别。  相似文献   

18.
基于HTK 的特定词语音识别系统   总被引:1,自引:1,他引:0  
语音识别技术经过半个世纪的发展,目前已日趋成熟,其在语音拨号系统、数字遥控、工业控制等领域都有了广泛的应用。由于目前常用的声学模型和语言模型的局限性,计算机只能识别一些词汇或一些句子。语音识别系统在语种改变时,往往会出现错误的识别结果。针对上述问题,结合隐马尔可夫模型原理,在HTK语音处理工具箱的基础上构建了中英文特定词语音识别系统。该系统通过代码控制整个构建过程,使其在更换新的训练数据和词典后能快速生成对应的识别模型。  相似文献   

19.
语音是人类与智能手机或智能家电等现代智能设备进行通信的一种常用而有效的方式。随着计算机和网络技术的显著进步,语音识别系统得到了广泛的应用,它可以将用户发出的语音指令解释为智能设备上可以理解的数字指令或信号,实现用户与这些设备的远程交互功能。近年来,深度学习技术的进步推动了语音识别系统发展,使得语音识别系统的精度和可用性不断提高。然而深度学习技术自身还存在未解决的安全性问题,例如对抗样本。对抗样本是指在模型的预测阶段,通过对预测样本添加细微的扰动,使模型以高置信度给出一个错误的目标类别输出。目前对于对抗样本的攻击及防御研究主要集中在计算机视觉领域而忽略了语音识别系统模型的安全问题,当今最先进的语音识别系统由于采用深度学习技术也面临着对抗样本攻击带来的巨大安全威胁。针对语音识别系统模型同样面临对抗样本的风险,本文对语音识别系统的对抗样本攻击和防御提供了一个系统的综述。我们概述了不同类型语音对抗样本攻击的基本原理并对目前最先进的语音对抗样本生成方法进行了全面的比较和讨论。同时,为了构建更安全的语音识别系统,我们讨论了现有语音对抗样本的防御策略并展望了该领域未来的研究方向。  相似文献   

20.
为了提高大词汇量连续语音自动识别能力,设计基于人机交互设计大词汇量连续语音自动识别系统.构建大词汇量连续语音信号检测模型,采用多尺度小波特征分解方法提取高阶频谱特征,并进行融合处理,构建特征多源辨识模型,通过空间波束集成方法检测大词汇量连续语音信号的信息聚类和语义特征,采用级联匹配滤波器进行大词汇量连续语音信号降噪滤波...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号