首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统—MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。  相似文献   

2.
近几年语音控制在电子乐器制造企业、各类音乐乐团、音乐学院声乐训练室、广播电视单位的声音控制室、各种录音室等行业应用非常广泛;语音接口作为输出口时,主要用于报告运行状态、运行结果、提示系统操作过程及故障报警等;作为输入时,则主要是语音的记录、语言库的建立和语音的识别。  相似文献   

3.
随着计算器广泛应用于办公、商业等日常生活,录入速度和准确性越来越受到重视,语音计算器具有提高录入数据速度和增加准确性等优势.文中对语音计算器语音集合的算法进行探讨,语音可自由更换并支持中英文语音播报,采用Java技术与多线程技术实现使系统具备良好的可移植性.  相似文献   

4.
连续语音识别技术,是集语音处理、模式识别、句法和语义分析于一体的综合性语音处理技术,能够识别任意的连续语音,如一个句子或一段话,大大提高了语音交互的连续性和体验度,是语音识别技术的核心之一。本文介绍了连续语音识别技术的研究现状及几种常见的技术方法,并且分析探讨了连续语音识别技术的应用和发展前景。  相似文献   

5.
申广忠 《微计算机信息》2007,23(12):251-252
目前,蒙古语语音识别的研究尚处于空白阶段,因此蒙古语语音识别系统的研究与开发具有重要意义。而语言模型的确立是语音识别系统中最重要的环节之一。本文根据自己的实践,通过实验的方法最终确立了蒙古语、大量词汇语音识别系统中适宜的语言模型。  相似文献   

6.
针对多语言对话场景距离的限制以及噪声、干扰和混响等多重因素的影响,导致语音信息识别质量不高的问题,提出基于卷积神经网络与多通道语音DOA估计的定位与分离,以实现对不同距离、不同声源数下语音的识别,提高语音识别质量。实验结果证明,运用卷积神经网络的DOA估计方法与多通道语音分离算法,针对同性别或不同性别说话者在不同距离、不同方位角的识别性能较高,且能对混合信号可实现较高的有效分离。  相似文献   

7.
为了实现基于人机交互增强算法的便携语言翻译机系统,提出了一种基于傅里叶门控卷积神经网络的语音增强模型与一种基于FSMN+Transformer语音识别模型用于便携语言翻译机。首先,对便携语言翻译机系统进行了整体设计;然后,对系统的关键部分即语音增强模型和语音识别模型分别进行了设计,其中,语音增强模型选择傅里叶门控卷积神经网络优化算法来构建;语音识别模型中,选择矢量型FSMN作为声学模型的基础结构,并引入门控单元和残差网络对其进行优化,同时选择添加交互算法的Transformer算法构建语言模型,共同构成基于FSMN+Transformer的语音识别模型;最后,分别对语音增强模型、语音识别模型以及便携语言翻译机系统进行实验验证。结果表明:基于傅里叶门控卷积神经网络的语音增强模型更具优越性,FSMN+Transformer的语音识别模型的正确率最高,基于提出的语音增强与语音识别模型的便携语言翻译机系统对原始语音的翻译准确率都达到了99%以上。  相似文献   

8.
低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的 发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。  相似文献   

9.
针对调度语音识别过程中单遍解码词图生成算法所生成词图精度较差的问题,研究基于语言模型的调度语音智能识别方法。构建由训练过程和识别过程组成的调度语音智能识别模型,训练过程中该模型提取语音数据的语音向量序列构建声学子模型,利用语言子模型训练文本数据构建语音词图,识别过程中对声学子模型、语音词图以及发音词典实施语音解码与搜索获取最优词序列,基于最优词序列完成调度语音智能识别。测试结果显示研究方法所生成的词图精度较高,可准确识别调度语音。  相似文献   

10.
对于开放型办公室语音掩蔽系统性能的评价,语言可懂度是很重要的一个方面,目前通常采取的客观评价方法是STI。将语音信号按一定时间帧长反转后得到的信号我们称为时间反转语音,时间反转语音已被作为有效掩蔽信号之一。虽然对于由平稳噪声掩蔽的语音信号,STI与主观理解的语言可懂度相关性很好。但研究发现STI不适用于估计由时间反转语音掩蔽的语音信号的语言可懂度。文章分析了STI、PESQ及mNCM客观评价方法并进行了实验,实验结果表明,PESQ及mNCM对于由反转语音掩蔽的语音信号仍能较好估计语言可懂度。文章根据客观评价结果,进一步比较了反转语音掩蔽算法的不同参数(反转帧长与信噪比)对于语言可懂度的影响。发现反转帧长的增加和信噪比的降低会导致较低的语言可懂度。  相似文献   

11.
将科学领域研究中形成的描述规范抽取为领域的语言,可方便地描述所研究领域的对象和处理过程,根据这一原则,本文建立了面向语音处理领域语言。同时,本文借助Unix中的YACC和Lex分别作为面向领域语音翻译系统的语法分析器和词法分别器,用它们建立特定的语法分析程序和词示法分析程序,再配合我们自行开发的部分,构成一个切实可行的面向语音领域的语言翻译系统。  相似文献   

12.
80年代以来,语音识别与合成,语音编码和实时传输、多语种机器翻译等关键技术的迅速发展,促进了自动翻译电话系统的研究和开发。  相似文献   

13.
使用VB中SPI提供的Direct Speech recognition控件,创建了语音识别的VB应用程序。本文的应用程序具有语音“命令与控制”功能,同时也作为一些复杂语音识别程序开发的核心部分。  相似文献   

14.
针对目前生活中涌现的海量语音数据,人们对语音检索技术准确度的要求越来越高。主要研究了汉语连续语音检索任务中,基于转换音节网格的研究方法。针对语音检索系统中置信度计算的问题,提出了一种基于音节间互信息的置信度计算方法,并将其用于网格结构的语音检索系统中。该方法能够有效地利用上下文之间的互信息量,从而更准确、合理地描述汉语语言模型。实验结果表明,用提出的方法建立转换音节网格来进行语音检索,其检出率(FOM)比后验概率法和N-best法有较大幅度的提高。得到的汉语语音检索系统其FOM最高可以达到83.7%。  相似文献   

15.
本文首先从系统设计角度讨论了语音信息处理系统设计的有关问题,接着论述了自然语言处理和语音处理的层次设计方法,最后提出通用语音信息处理结构设计思想。  相似文献   

16.
语音翻译(SPeech Translation)技术作为一门综合性的计算机应用技术,近年来得到了广的关注。有关专家曾指出,语音翻译是自然语言处理、语音识别及其人工智能研究的最终目标一,是当今世界对计算机科学和工程最大的挑战[1],其应用效果如  相似文献   

17.
语音识别使声音变得"可读",让计算机能够"听懂"人类的语言并做出反应,是人工智能实现人机交互的关键技术之一.本文介绍了语音识别的发展历程,阐述了语音识别的原理概念与基础框架,分析了语音识别领域的研究热点和难点,最后,对语音识别技术进行了总结并就其未来研究进行了展望.  相似文献   

18.
语音识别使声音变得"可读",让计算机能够"听懂"人类的语言并做出反应,是人工智能实现人机交互的关键技术之一.本文介绍了语音识别的发展历程,阐述了语音识别的原理概念与基础框架,分析了语音识别领域的研究热点和难点,最后,对语音识别技术进行了总结并就其未来研究进行了展望.  相似文献   

19.
介绍最新研制成功半投入使用的电化教学仪器。它采用数据编码,调制和解调技术,将语音信息和相应的文字图像信息处理成语音形式录制在普通录音磁带上,声象同步器在播放磁带时,同步输出音频的语音信息和视频的图象信息,达到视听结合的教学效果,当暂停播放磁盘时,能重播放上一段的语音信号,与计算机结合使用,能编辑制作声象教材。  相似文献   

20.
对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMU Sphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,具有最出色的识别正确率结果;CMU Sphinx系列语音工具包在提供较为全面的声学模型训练基础上,具有最好的识别效率;而HTK语音识别工具包所提供的训练技术支持最少,并且需要自行开发训练脚本,因此使用难度最大。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号