首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
主要研究如何更好地让计算机智能地纠正英语学习者的发音错误。借助语音识别中的HMM(隐马尔可夫模型)建模方法,用Viterbi算法和改进的后验概率算法对中国学习者的英语发音进行自动识别,通过对基本单元进行切分和评分,最后,为英语学习者提供可信度比较高的发音信息反馈,纠正发音错误。  相似文献   

2.
基于字统计语言模型的汉语语音识别研究   总被引:1,自引:0,他引:1  
隐马尔可夫模型(HMM)由于较好地描述了语音的特性,在语音识别的研究中占主导地位,基于HMM的识别算法也因取得了较好的识别效果而得到广泛应用.但其仅仅依靠语音信号的声学模型来进行识别处理,因此存在着不能利用语言的非声学知识进行识别的固有缺陷.该文提出的新方法将基于N元文法(N-gram)的统计语言模型应用于汉语语音识别,推导了模型多数的估值公式,并给出了模型的训练和识别算法.初步实验表明:引入统计语言模型有利于降低识别难度和改善语音识别性能.  相似文献   

3.
一种基于听觉模型的语音特征提取方法   总被引:2,自引:0,他引:2  
提出了一种基于听觉模型的语音特征提取方法,从信号的过零点获得频率信息,从振幅值和非线性压缩获得强度信息,并对这种方法进行了误差分析,证明其噪声的鲁棒性。  相似文献   

4.
针对当前保密监管的技术现状,本文分析了当前保密信息监管的主要监管范围及其局限性,提出并论述了语音信息保密监管的必要性与重要性,同时对语音信息保密监管的核心技术——语音识别技术的基本原理进行了分析,对语音信息保密监管的具体方法及技术路线进行了讨论,选择基于大规模连续语音识别的方法作为语音信息保密监管的底层支撑技术,并在此基础之上提出一种基于置信度的语音信息保密监管匹配算法,通过同音词扩展的方法提升监管数据的召回率,通过类别置信度计算的方法提升召回监管数据的准确率,以实现在提升监管数据召回率的同时,更好的兼顾监管的准确率。  相似文献   

5.
6.
采用识别技术的用户界面往往由于识别率的限制容易出错,如何为这类界面提供自然高效的纠错方法十分重要.手写数学公式具有二维结构,难以识别和纠错.提出一种用于纠正手写数学公式识别错误的多通道技术.它允许用户使用笔纠正切分错误,用笔和语音纠正符号识别和表达式结构分析错误.该技术的核心是一个多通道融合算法.融合算法以笔选择的符号和语音作为输入,根据语音输入的类型是数学术语或者数学符号分别选择融合方法,最后修正手写公式并输出最有可能的识别结果.实验结果表明,该技术能有效地纠正手写数学公式识别中的错误,它比基于笔的单通道纠错技术更加高效.  相似文献   

7.
语义分析和结构化语言模型   总被引:3,自引:0,他引:3  
李明琴  李涓子  王作英  陆大? 《软件学报》2005,16(9):1523-1533
提出了一个语义分析集成系统,并在此基础上构建了结构化的语言模型.该语义分析集成系统能够自动分析句子中各个词的词义以及词之间的语义依存关系,达到90.85%的词义标注正确率和75.84%的语义依存结构标注正确率.为了描述语言的结构信息和长距离依存关系,研究并分析了两种基于语义结构的语言模型.最后,在中文语音识别任务上测试两类语言模型的性能.与三元语言模型相比,性能最好的语义结构语言模型--中心词三元模型,使绝对字错误率下降0.8%,相对错误率下降8%.  相似文献   

8.
朱淑琴  魏威 《微计算机信息》2012,(9):447-448,477
研究基于神经网络的汉语孤立词语音识别问题,神经网络通常是针对静态模式而设计,输入结构是固定的,语音信号是一个时变信号,发音时音节的长短不可能完全相同,将人工神经网络用于语音识别时需要对其做一些必要的修正。本文将语音特征参数序列通过规整网络转换为状态转移矩阵。状态转移矩阵维数固定,反映语音时变特性。从而很好的解决了神经网络动态模式识别问题,实现了基于神经网络的孤立词语音识别。实验结果表明该系统具有良好性能。  相似文献   

9.
为了提高汉语语音识别率, 本文根据一种基于马尔可夫模型的统计语言模型去实现汉语音字转换, 在实现过程中, 提出了它的简化模型, 该模型不仅保证了实时性,而且也为以后的工作打下伏笔; 同时对训练文本的稀疏问题提出了一种新的解决方案。利用以上模型的模拟实验表明, 前向-后向的马尔可夫模型具有较好的识别性能; 且以词为输出单元的模型识别性能优于以字符为输出单元的模型。  相似文献   

10.
连续语音识别技术,是集语音处理、模式识别、句法和语义分析于一体的综合性语音处理技术,能够识别任意的连续语音,如一个句子或一段话,大大提高了语音交互的连续性和体验度,是语音识别技术的核心之一。本文介绍了连续语音识别技术的研究现状及几种常见的技术方法,并且分析探讨了连续语音识别技术的应用和发展前景。  相似文献   

11.
Transformer模型对输入序列中重要的信息进行学习, 相比传统的ASR (automatic speech recognition)模型提升了准确性. Conformer模型在Transformer的编码器中加入卷积模块, 增加了获取细微局部信息的能力, 进一步提高了模型性能. 本文结合使用Conformer模型和N-gram语言模型(language model , LM)用于中文语音识别, 获得了良好的识别效果. 在数据集AISHELL-1和aidatatang_200zh上的实验表明, 使用Conformer模型字错率分别可降低到5.79%和5.60%, 较Transformer模型降低了5.82%和2.71%. 结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能, 实时率(real time factor , RTF)达到0.14566. 测试信噪比降低为20 dB时模型字错率才明显下降到8.58%, 表明该模型具有一定的抗噪能力.  相似文献   

12.
Automatic Speech Recognition (ASR) may increase access to spoken information captured in videos. ASR is needed, especially for online academic video lectures that gradually replace class lectures and traditional textbooks. This conceptual article examines how technological barriers to ASR in under-resourced languages impair accessibility to video content and demonstrates it with the empirical findings of Hebrew ASR evaluations. We compare ASR with Optical Character Recognition (OCR) as facilitating access to textual and speech content and show their current performance in under-resourced languages. We target ASR of under-resourced languages as the main barrier to searching academic video lectures. We further show that information retrieval technologies, such as smart video players that combine both ASR and OCR capacities, must come to the fore once ASR technologies have matured. Therefore, suggesting that the current state of information retrieval from video lectures in under-resourced languages is equivalent to a knowledge dam.  相似文献   

13.
基于乘积HMM的双模态语音识别方法   总被引:3,自引:2,他引:1       下载免费PDF全文
针对噪声环境中的语音识别,提出一种用于双模态语音识别的乘积隐马尔可夫模型(HMM)。在独立训练音频HMM和视频HMM的基础上,建立二维训练模型,表征音频流和视频流之间的异步特性。引入权重系数,根据不同噪声环境自适应调整音频流与视频流的权重。实验结果证明,与其他双模态语音识别方法相比,该方法的识别性能更高。  相似文献   

14.
基于模糊聚类神经网络的语音识别方法   总被引:8,自引:0,他引:8  
刘宇红  刘桥  任强 《计算机学报》2006,29(10):1894-1900
提出了一种基于模糊神经网络的语音识别方法.该方法以模糊系统模型为基础,利用改进的模糊聚类辨识算法,构成一种新型的模糊聚类神经网络(FCNN),并将其作为概率密度函数的估计器,对每个状态的输出进行预测.它不仅能有效地在语音识别中引入帧间相关信息,而且能克服状态输出概率密度函数为混合高斯分布的束缚.通过对非特定人汉语孤立词和连续音节的语音识别实验,证实了该方法的有效性.  相似文献   

15.
基于神经网络的语音识别技术研究   总被引:5,自引:0,他引:5  
对BP神经网络在特定人语音识别技术中的应用进行了探索性的研究,进而对非特定人语音识别做了一定的实验和研究。通过对比分析了传统的语音识别方法——模板匹配法和人工神经网络语音识别方法的优缺点。神经网络可以得到较高的识别准确度,但是训练速度慢是它的弱点,因此,针对经典的BP算法训练速度慢的缺点,对BP网络加以改进,提高网络训练速度,通过改进使神经网络用于语音识别的各种优越性充分发挥。  相似文献   

16.
关勇  李鹏  刘文举  徐波 《自动化学报》2009,35(4):410-416
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition, ASR)系统的鲁棒性问题. 本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis, CASA)和语者模型信息的混合语音分离系统. 该系统在CASA框架下, 利用语者模型信息和因子最大矢量量化(Factorial-max vector quantization, MAXVQ)方法进行实值掩码估计, 实现了两语者混合语音中有效地分离出目标说话人语音的目标, 从而为ASR系统提供了鲁棒的识别前端. 在语音分离挑战(Speech separation challenge, SSC)数据集上的评估表明, 相比基线系统, 本文所提出的系统的语音识别正确率提高了15.68%. 相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性.  相似文献   

17.
正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%.  相似文献   

18.
基于数据驱动方法的汉语文本-可视语音合成   总被引:7,自引:0,他引:7  
王志明  蔡莲红  艾海舟 《软件学报》2005,16(6):1054-1063
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统.  相似文献   

19.
为了提高情感识别的准确性,该文以语音信号为研究对象,提出了一种新型的语音情感识别方法.将局部保持投影算法(LPP)的思想融入到主元分析(PCA)的目标函数中,使得在原始变量空间投影到低维空间的过程中,不仅实现了整体方差的最大化,而且保持了局部近邻结构不变,有利于全局和局部特征的全面提取,克服了传统PCA方法只关注全局结构特征而忽略局部特征的缺陷.对比实验结果验证了该方法的可行性和有效性,实现了对喜悦、愤怒、悲伤、恐惧和中性5种人类基本情感的识别,研究成果将为情感识别提供新的研究方法,促进人机交互系统进一步深入发展.  相似文献   

20.
一种基于MVDR和CCBC的抗噪语音识别方法   总被引:1,自引:0,他引:1  
提出了一种适用于抗噪声语音识别的方法,其特征提取过程基于最小方差无失真响应(Minimum variance distortionles sresponse,MVDR)谱估计方法,并对该特征进行频率弯折以提高其知觉分辨率,最后使用基于正则相关分析的谱变换补偿(Canonical correlation based on compensation,CCBC)法对该特征进行自适应处理,从而提高了系统的鲁棒性。在展览馆噪声、人群噪声和汽车噪声下,与基于传统Mel倒谱系数(MFCC)特征的系统进行了对比实验,结果表明使用本文方法的语音识别系统的识别率得到了显著的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号