共查询到19条相似文献,搜索用时 46 毫秒
1.
2.
计算机能听懂人的语言,这意味着人工智能时代已向我们走来c北京中自汉王科技公司在IBM支持下,基于ViaVoice自行开发的一种最新语音识别软件与手写输入系统——汉王听写系统,它把IBM研究开发的语音识别核心技术与汉三优秀的手写汉字识别输入系统完美的集成在一起.形成了一个优势互补的非键盘输入系统。成为一种简单方便,人人会用的文字录入工具。这不仅提高了汉字输入速度,而且使讲话人更自然、更流畅地表达自己的意愿。汉王听写系统,具有汉语语音听写输入、语音命令、编辑、打印功能,基于中文自身的特点,同音字多,有声调、词… 相似文献
3.
文章探讨了中文和英文的大词汇量连续语音识别,讨论了如何设计数据库进行不同识别技术的评测,采用何种评测方法,以及一些代表性的语音识别技术. 相似文献
4.
基于三音素动态贝叶斯网络模型的大词汇量连续语音识别 总被引:1,自引:0,他引:1
考虑连续语音中的协同发音现象,基于词-音素结构的DBN(WP-DBN)模型和词-音素-状态结构的DBN(WPS-DBN)模型,引入上下文相关的三音素单元,提出两个新颖的单流DBN模型:基于词-三音素结构的DBN(WT-DBN)模型和基于词-三音素-状态的DBN(WTS-DBN)模型.WTS-DBN模型是三音素模型,识别基元为三音素,以显式的方式模拟了基于三音素状态捆绑的隐马尔可夫模型(HMM).大词汇量语音识别实验结果表明:在纯净语音环境下,WTS-DBN模型的识别率比HMM,WT-DBN,WP-DBN和WPS-DBN模型的识别率分别提高了20.53%,40.77%,42.72%和7.52%. 相似文献
5.
综合了语音识别中常用的高斯混合模型和人工神经网络框架优点的Tandem特征提取方法应用于维吾尔语声学模型训练中,经过一系列后续处理,将原始的MFCC特征转化为Tandem特征,以此作为基于隐马尔可夫统计模型的语音识别系统的输入,并使用最小音素错误区分性训练准则训练声学模型,进而完成在测试集上的识别实验。实验结果显示,Tandem区分性训练方法使识别系统的单词错误率比原先的基于最大似然估计准则的系统相对减少13%。 相似文献
6.
汉语连续语音中声调识别的特殊性研究 总被引:1,自引:0,他引:1
大词汇连续语识别是当前语音识别研究的主流,探讨其中声调识别的特殊是一项有意义的工作,本文从声调获取,语音分割,声调模式和声调识别等进行了研究,通过对现有研究成果的分析和总结,并结合自己的研究工作,得出了若干结论,提出了基于音节的连续语音声调识别思想。 相似文献
7.
本文介绍了在连续语音识别和语音机器翻译方面所进行的工作。我们已在中等词汇量范围、限定说话主题的条件下,实现了特定人的连续话句的识别。并实现了一个英汉语音翻译实验演示系统。 相似文献
8.
9.
利用HMM嵌入训练方法建立汉语电话连续语音声学模型 总被引:2,自引:0,他引:2
文章介绍了用HMM嵌入训练方法来建立连续语音的声学模型,并对基于音素的HMM和基于音节的HMM进行了比较,并以此为基础建立了一个实用的银行电话语音服务系统。 相似文献
10.
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 相似文献
11.
汉语连续语音识别中经典HMM的实验评测 总被引:2,自引:1,他引:1
定量地分析与评价经典隐马尔可夫模型(Hidden Markov Model,HMM)的性能,是汉语连续语音识别研究中尚未解决并且亟需解决的问题。文章构造了基于经典HMM模型的汉语连续语音识别系统。针对语音单元和输出概率这两个自由度上的各种组合,研究了经典HMM模型的复杂度、稳健性、精确性与训练集合的数据量、训练时间、解码效率等特性之间的关系;并且通过实验分析了多候选的构造和剪枝的意义。该文构造的系统与具有国内最高水平的 THEESP系统的识别率相当,所得实验结果和结论为汉语语音识别的深入研究提供了必要的参考和依据。 相似文献
12.
13.
基于小波分析的大词汇汉语连续语音识别系统鲁棒性的研究 总被引:6,自引:0,他引:6
本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。 相似文献
14.
15.
在分析汉语数字串语音特点的基础上,设计出了基于层级策略的连续数字串识别系统。该系统先对连续数字串进行确定性的预分割,再用LevelBuilding算法对每个分割段进行基于模板模糊分组的识别,在该识别结果的基础上利用加权矩阵识别算法进一步区分易混淆语音对。该系统在计算时间减少到原来的35.2%的同时识别率提高到94.08%。 相似文献
16.
文中考虑语音的音频和视频双模型特性,建立了一个在噪音环境下的基于音频和视频复合特征的连续语音识别系统。在视频特征提取方面,引入了一种鲁棒性较好的数据筛特征提取方法:在音频和视频集成建模方面,使用多数据流HMM来反映语音的双模型特性。识别实验表明,文中建立的音频视频连续语音识别系统具有很好的抗噪性。 相似文献
17.
一个汉语连续数字语音识别系统的实现 总被引:1,自引:1,他引:0
徐华 《计算机工程与应用》2005,41(21):116-118,162
本文研究了基于互信息估计的汉语连续数字语音识别系统,其中包括语音信号的预处理部分、识别模板的训练、识别匹配算法以及后续处理部分,文中就系统的各个部分的具体实现进行了阐述,给出了系统部分识别结果,指出了系统的一些可以改进的方向。 相似文献
18.
19.
近年来,深度学习在语音识别领域取得了突破性进展,并推动语音识别技术广泛应用到人们的日常生活中。语音识别模型的进一步优化需要更大规模标定数据的驱动,然而,目前开源的语音数据集规模仍太小,语料多为偏向书面用语的新闻类长文本。针对人机交互、智能客服等热门语音识别应用,通过众包模式采集朗读式语音,构建并开源了迄今为止最大规模的中文普通话语音数据集DTZH1505。数据集记录了6?408位来自中国八大方言地域、33个省份的说话人的自然语音,时长达1?505?h,语料内容涵盖社交聊天、人机交互、智能客服以及车载命令等,可广泛用于语料库语言学、会话分析、语音识别、说话人识别等研究。开展一系列基准语音识别实验,实验结果表明:相较于同规模中文语音数据集aishell2,基于此数据集训练的语音识别模型效果更好。 相似文献