共查询到10条相似文献,搜索用时 15 毫秒
1.
周西 《计算机光盘软件与应用》2010,(12)
现有的语音识别系统尽管功能强大,但没有对发音练习方面进行开发和优化.本系统在良好的英语口语发音识别功能基础上,加入了对发音的错误识别,结合实际应用的需求,设计与开发了一套完整的发音错误识别系统. 相似文献
2.
张昕煜 《自动化技术与应用》2023,(5):44-47
为提升英语口语发音质量,设计基于语音感知的英语口语发音自动校准系统。通过语音感知传感器与英语口语发音处理器设计系统硬件,采集英语口语发音数字信号,并以此为基础,对信号进行预加重、分帧加窗处理,获取信号特征MFCC系数,将MFCC系数作为训练数据集,构建发音检错模型,以检测到的错误发音为依据,对英语口语发音自动校准。实验结果表明系统英语口语发音检错正确率与校准发音质量评分更高,具备更加优质的性能。 相似文献
3.
4.
主要研究如何更好地让计算机智能地纠正英语学习者的发音错误。借助语音识别中的HMM(隐马尔可夫模型)建模方法,用Viterbi算法和改进的后验概率算法对中国学习者的英语发音进行自动识别,通过对基本单元进行切分和评分,最后,为英语学习者提供可信度比较高的发音信息反馈,纠正发音错误。 相似文献
5.
针对发音错误检测中标注的发音数据资源有限的情况,提出在Tandem系统框架下利用其他数据来提高特征的区分性。以中国人的英语发音为研究对象,选取了相对容易获取的无校正发音数据、母语普通话和母语英语作为辅助数据,实验结果表明,这几种数据都能够有效地提高系统性能,其中无校正数据表现出最好的性能。同时,比较了不同的扩展帧长,以多层神经感知(MLP)和深度神经网络(DNN)作为典型的浅层和深层神经网络,以及Tandem特征的不同结构对系统性能的影响。最后,多数据流融合的策略用于进一步提高系统性能,基于DNN的无校正发音数据流和母语英语数据流合并的Tandem特征取得了最好的性能,与基线系统相比,识别正确率提高了7.96%,错误类型诊断正确率提高了14.71%。 相似文献
6.
针对发音错误检测的发音字典生成提出基于联合序列多阶模型(Joint-sequence multi-gram, JSM)和多层神经感知(Multi-layer perception, MLP)的方法. 首先使用JSM模型对发音错误进行建模, 将标准发音和错误发音组合为发音对, 表示它们之间的对应关系, 再使用N元文法来统计各发音对之间的关系, 描述错误发音对上下文关系的依赖. 最后使用MLP对发音对之间的关系进行重新建模, 以学习到在相似的上下文条件下发生的相似的错误. 实验证明使用MLP对高阶模型进行概率重估能有效的平滑概率空间, 提高了发音错误检测的性能. 相似文献
7.
将语种和说话人识别的方法应用到英语发音错误检测系统, 提出一种基于广义线性区分序列支持向量机 (Generalized linear discriminant sequence based SVM, GLDS-SVM)的发音错误检测方法. 主要创新点为: 1)提出一种基于状态拼接的特征规整方案, 增强SVM对发音特征的建模能力; 2)提出一种基于多模型融合的模型训练策略, 该策略可以更加充分地利用训练数据, 并在一定程度上解决了由于真实发音错误数据缺乏造成的正负样本不均衡的问题; 3)将GLDS-SVM与基于通用背景模型GMM (Universal background models based GMM, GMM-UBM)的方法进行融合, 以进一步提高发音检错性能. GLDS-SVM和GMM-UBM的融合系统在仿真测试集和真实测试集上的等错误率 (Equal error rate, EER)分别达到9.92%和16.35%. 同时, GLDS-SVM在模型占用空间和运算速度方面均比传统径向基函数 (Radial basic function, RBF)核方法具有明显优势. 相似文献
8.
9.
统计语音识别框架是现在发音错误检测系统的主流框架,而声学模型则是统计语音识别的基础。 该文一方面为了获得对于发音错误检测更好的声学模型,引入了说话人自适应训练(SAT)和选择性最大似然线性回归(SMLLR)技术;另一方面,由于字发音检错中存在严重的信息量不足问题和专家对于不同水平说话人的评价标注不一样,在后端上加入了话者得分归一化技术。在包含40个不同水平说话人的8 000个字的数据库上的实验结果表明,文中提出的方法有效的提高了系统性能,召回率为30%时,正确率从45.8%升到了53.6%,召回率为10%时,正确率从64.6%升到了79.9%。 相似文献
10.
汉语三维发音动作合成和动态模拟 总被引:2,自引:0,他引:2
本文以帮助聋儿言语康复为出发点,从聋儿音频发音数据中获得了聋儿易错发音文本以及聋儿易混淆发音文本对。设计了一个数据驱动的3D说话人头发音系统,该系统以EMA AG500设备采集的发音动作为驱动数据,逼真模拟了汉语的发音,从而可使聋儿观察到说话人嘴唇及舌头的运动情况,辅助聋儿发音训练,纠正易错发音。最后对系统的性能进行了人工评测,结果表明:3D说话人头发音系统可以有效地模拟说话人发音时口腔内外器官的发音动作。此外,本文还用基于音素的CM协同发音模型合成的方法,合成了聋儿易错发音文本的发音动动作,并用RMS度量了合成发音动作与真实发音动作的误差,得到了均值为1.25mm的RMS误差值。 相似文献