首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
刘晓千  燕楠  王岚 《集成技术》2013,2(4):68-73
本文介绍了一种新型的包含虚拟发音人头像的语言训练系统并对该系统在听障儿童语言康复训练中的实用性进 行了研究。该系统以虚拟三维发音人头像的形式再现了汉语中常见的 20 个单音节字的发音动作,并将之用于语言康复 训练。系统运用 EMA(三维电磁发音仪)设备采集内部及外部发音器官运动轨迹作为驱动数据,有效模拟了汉语发音。此 外,系统还包括一个听力训练模块和一个朗读训练模块,用于辅助聋儿的发音康复训练。文章对系统发音模拟功能的准 确性进行了人工评估,并应用系统对两名 4 至 5 岁之间的聋儿进行了初步的康复训练。初步评估及训练的结果表明:系 统的发音模拟功能可有效模拟发音器官的动作,有助于提高听障儿童的语言能力;同时,系统的设计风格较易获得幼儿 认同。研究证明,本系统在听障儿童发音训练方面是有效的,具有较高的应用价值。  相似文献   

2.
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。  相似文献   

3.
研究中文发音过程中舌头运动的3D可视化问题。根据核磁共振数据构建舌头精细的3D模型,在此基础上,提取舌背表面处3个点的EMA数据为驱动源,利用弹簧网技术真实再现中文发音过程中的舌头运动。为了验证文中建模和舌头运动合成方法的有效性,使用计算机图形学的方法模拟舌头运动的细节效果,并对比其与由语言学家亲自拍摄的“普通话发音器官动作特征”的X光影像。实验表明,文中方法实现的3D舌头运动符合真实的舌头运动情况,拥有广泛的应用前景。  相似文献   

4.
Viseme是在语音驱动说话人头部动画中一种常用的为口形建立的音频-视频模型。本文尝试建立viseme隐马尔可夫模型(HMM),用于驱动说话人头部的语音识别系统,称为前映射系统。为了得到更精确的模型以提高识别率,引入考虑发音口形上下文的Triseme模型。但是引入Triseme模型后,随着模型数量的急剧增加将导致训练数据的严重不足。本文使用决策树状态捆绑方法来缓解这一问题,同时引入了一种以口形相似度为基础的决策树视频问题设计方法。为了比较viseme系统的性能,本文也建立了一个以phoneme为基本HMM模型的语音识别系统。在评价准则上,使用了一种客观评价说话人头部动画的加权识别率。实验表明,以viseme为基本HMM模型的前映射系统可以为说话人头部提供更加合理的口形。  相似文献   

5.
本文提出了一种基于多普勒微波雷达的发音动作检测与命令词识别方法.该方法利用微波雷达的多普勒特性检测发音过程中面部肌肉的微小变化,实现不依赖语音声学信号的命令词识别.本文首先设计实现了一个基于多普勒微波雷达的发音动作检测系统,并基于此系统构建了一个包含2个说话人的命令词识别数据库.然后,本文研究了基于支持向量机和卷积神经网络模型的雷达数据分类方法,并对比了不同模型和特征组合在单话者建模和多话者建模情况下的命令词识别性能.实验结果表明,本文设计的数据采集系统可以有效检测发音动作,所构建的卷积神经网络分类器可以取得90%以上的命令词识别准确率.  相似文献   

6.
基于数据驱动方法的汉语文本-可视语音合成   总被引:7,自引:0,他引:7  
王志明  蔡莲红  艾海舟 《软件学报》2005,16(6):1054-1063
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本视觉语音合成系统.  相似文献   

7.
发音动作参数描述发音过程中唇、舌、颚等发音器官的位置与运动。本文对给定文本与语音情况下中文发音动作参数的预测方法进行研究。首先,设计了基于电磁发音仪的发音动作参数采集与预处理方法,通过头部运动规整与咬合面规整保证了发音动作参数的可靠性;其次,将隐马尔科夫模型应用于中文发音动作参数预测,采用包含声学参数与发音动作参数的双流模型结构实现从声学参数到发音动作参数的映射,并且分析对比了建模过程中不同上下文属性、模型聚类方式以及流间相关性假设对于中文发音动作参数预测性能的影响。实验结果表明,当采用三音素模型、双流独立聚类并且考虑流间相关性的情况下,可以获得最优的预测性能。  相似文献   

8.
袁桦  蔡猛  赵军红  张卫强  刘加 《计算机应用》2014,34(6):1694-1698
针对发音错误检测中标注的发音数据资源有限的情况,提出在Tandem系统框架下利用其他数据来提高特征的区分性。以中国人的英语发音为研究对象,选取了相对容易获取的无校正发音数据、母语普通话和母语英语作为辅助数据,实验结果表明,这几种数据都能够有效地提高系统性能,其中无校正数据表现出最好的性能。同时,比较了不同的扩展帧长,以多层神经感知(MLP)和深度神经网络(DNN)作为典型的浅层和深层神经网络,以及Tandem特征的不同结构对系统性能的影响。最后,多数据流融合的策略用于进一步提高系统性能,基于DNN的无校正发音数据流和母语英语数据流合并的Tandem特征取得了最好的性能,与基线系统相比,识别正确率提高了7.96%,错误类型诊断正确率提高了14.71%。  相似文献   

9.
汉语文本-可视语音转换的研究   总被引:9,自引:1,他引:9  
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS)  相似文献   

10.
文本-视觉语音合成综述   总被引:2,自引:1,他引:2  
视觉信息对于理解语音的内容非常重要.不只是听力有障碍的人,普通人在交谈过程中也存在着一定程度的唇读,尤其是在语音质量受损的噪声环境下.正如文语转换系统可以使计算机像人一样讲话,文本-视觉语音合成系统可以使计算机模拟人类语音的双模态性,让计算机界面变得更为友好.回顾了文本-视觉语音合成的发展.文本驱动的视觉语音合成的实现方法可以分为两类:基于参数控制的方法和基于数据驱动的方法.详细介绍了参数控制类中的几个关键问题和数据驱动类中的几种不同实现方法。比较了这两类方法的优缺点及不同的适用环境.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号