首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
为提高处理舌位超声成像数据的效率,研发一套基于超声影像的舌位参数提取及分析软件,包括舌位曲线提取功能模块和舌位曲线参数分析功能模块,前一模块采用自动拟合和手工标记关键点相结合的方法,后一模块采用SPSS工具对舌位曲线帧距和舌位空间距离进行量化统计分析。该软件可精确分析发音人发音时的舌位运动轨迹及相关参数,并通过统计图实时直观显示,不但为批量处理更多的舌位运动数据提供了可能,也为不同学科研究者分析发音过程中舌位运动的生理参数变化提供了便捷的技术支持。  相似文献   

2.
一种有效的舌体自动化分割算法*   总被引:1,自引:0,他引:1  
舌体轮廓正确分割是实现中医舌诊信息化的重要前提.目前主流方法是用阈值方法或先验知识得到舌体的初始轮廓线,然后再用Snake模型使得曲线收敛到舌体边缘.但它们都存在两个问题:对比度较小的舌像,如舌面和脸部有相似的对比度的舌象,基本上没法处理;得到的初始化轮廓线无法克服嘴唇的影响,因此用Snake方法曲线常收敛于嘴唇边缘.通过对舌象的低层信息的研究,发现使用简单而有效的直方图均衡化能扩大图像的颜色分辨力,使得现有的阈值处理方法能在原有基础上很好地处理那些原来无法处理的舌体图像;然后根据舌体形状、位置等先验信息,用几何方法修正受嘴角和嘴唇影响得到的边缘.实验结果表明,该方法取得了很好的分割效果.  相似文献   

3.
着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。  相似文献   

4.
目的 言语发音过程中发音器官及其运动形态的精确可视化对发音机制的理解、言语疾病的诊断和治疗以及人机言语交互研究都具有重要意义。舌作为言语产生的重要器官,因其运动速度快、变形复杂、发音过程中不可见等原因,可视化比较困难。为此,提出一种基于统计模型法研究汉语普通话元辅音发音时舌的3维动态控制模型。方法 首先采集普通话元辅音发音过程中讲话人的磁共振图像(MRI),采用手动标记法提取舌轮廓并建立静态3维网格模型;其次以模型顶点为变量,通过线性主成分分析法提取控制参数并建立舌运动控制方程;最后对发音过程中舌运动控制仿真效果进行评估。结果 共提取含舌尖、舌体、舌背和下颌在内的6个3维模型运动控制参数,下颌参数控制下颌张合引起的舌旋转运动,舌体和舌背参数分别控制舌前后、拱起和凹陷运动,舌尖参数分别控制舌尖上下、前后和上翘运动,所提取的6个参数可以表达87.4%的舌3维运动变化,仿真效果优于其他语言的运动控制结果。结论 本文方法可以有效应用于汉语普通话发音的舌建模与3维运动控制,降低舌3维运动建模的复杂性,研究结果可以为汉语普通话发音过程中的器官可视化提供有用信息。  相似文献   

5.
舌体分割是智能医学诊断的重要组成部分,其目的是通过分割舌诊图像生成精准的舌体轮廓.近年来,深度学习方法在图像处理领域得到了广泛的应用并取得了较好的结果.随着医学图像分割对性能的要求越来越高,许多研究人员将深度学习运用到舌体分割中.主要对基于深度学习的舌体分割方法研究现状进行分析梳理和归纳总结.在舌体分割应用领域中,以各种深度学习方法作为研究对象,将基于深度学习的舌体分割方法划分为卷积神经网络(CNN)、全卷积网络(FCN)、卷积模型与图形模型、基于编解码器的模型、基于区域卷积网络模型、扩张卷积模型结构、迁移学习以及其他方法.在每类方法中,针对其改进和扩展的研究成果进行了全面的论述,总结分析其优势与不足;并对基于深度学习的舌体分割常用的数据集和评价指标进行了视觉比较与性能评估;最后讨论了未来研究工作中的发展潜力.  相似文献   

6.
人舌结构较为复杂,运动灵活,在虚拟人物发音及表情运动过程中起着关键的作用,但现有舌部模型结构较单一,实现的虚拟运动相对简单,描述能力不足,且需要大量数据驱动。针对以上问题,通过对舌部解剖结构的研究,提出一种基于肌肉运动特征的舌部模型及控制方法。将舌部内外肌群按其运动及发音功能进行分类,仅需获得多条肌肉不同的收缩量,即可利用各自的控制函数确定出参数值,进而实现模型前升高、后升高和谷形等多种常见运动。实验结果表明,该方法能够较为灵活便捷地控制虚拟舌体,仿真出符合生理特征的多种舌部运动。  相似文献   

7.
舌诊是中医望诊的重要手段,同时,温度与人体的健康息息相关。为了研究舌面的脏腑功能定位及舌象温度关系的反映,论文提出了一种红外技术的感兴趣区域(region of interest, ROI)模型研究方法。首先,利用葛立恒扫描法和Bezier曲线对多边形ROI模型进行改进;然后,借助U-Net分割网络将提取出的温度信息进行训练与学习,从而做到批量处理舌体温度信息;最后,利用HSV色彩模型进行3D可视化,达成舌象温度分区的可视化研究。此外,为了验证该方法的准确性,实验还对模型截取出的舌体进行了评价指标验证,准确度可以达到0.991 1,分割效果极佳。研究表明:改进后的红外信息提取技术既能直观地观察到舌体的分区状况,也可以完整保留舌体的信息变化,为中医的数据化提供了完整可行性方案。实现了舌体红外信息数据的提取与中医诊断技术的有机结合。解决了中医一体化望诊的舌体信息完整性及准确性问题。  相似文献   

8.
本文将单帧舌体的分割技术——Snakes算法扩展到动态舌体中来,并针对动态舌体跟踪中出现的问题,提出了光流发和Snakes模型相结合的方法。实验结果表明,改进后的方法具有更好的舌体跟踪能力。  相似文献   

9.
舌诊是中医四诊的重要内容,古往今来,为名医者莫不精深于舌诊。尤其近些年来,计算机技术迅猛发展带动的信息技术革命,为舌诊现代化研究注入了新的活力。本文应用图像分割技术,研究并比较了用于舌体图像分割的两种方法,提出用动态阈值的分割方法比用RGB三色分量差值方法优越,在舌体图像分割中具有较好的效果。  相似文献   

10.
对各种语言发音模型进行了综述,分别讨论了言语声音模型和言语动作模型。言语声音模型研究语言发音的声学原理,利用声音信号处理技术重构语音信号波形,由于对声源和共鸣之间的关系的认识不同,以及对共鸣的分析方法的不同,产生了3种不同的语言发音模型,第一种是频谱分析模型,第二种是共振峰模型,第三种是生理发音模型。言语动作模型研究发音器官的运动过程,利用图像信号处理技术重构发音器官的发音动作,根据建模方法的不同,言语动作模型可以分为3类:生理机能模型、几何特征模型、统计参数模型。  相似文献   

11.
目的 目前针对舌头的语音同步动画技术还未得到广泛的研究。在此背景下,提出了一种基于生理模型的舌头动画合成方法。方法 首先构建了一个精细的、能够在肌肉激励下产生逼真舌头变形的舌头生理模型;其次利用该舌头模型合成了大量的舌头运动样本,并据此通过学习得到一个从肌肉激励到舌头轮廓的转换模型;然后对采集的动态2维舌头轮廓数据进行运动参数估计以得到与音素对应的体素(肌肉激励序列和刚体位移序列);最后将体素按一定的排列方式输入到舌头生理模型进行仿真以生成相应的舌头动画。结果 该系统可以合成听觉效果逼真的语音和视觉效果逼真且与合成语音同步的舌头动画。结论 本文方法可以根据汉语普通话或其他语言的2维舌头轮廓数据构建音素—体素数据库,并据此合成该语言对应的高真实感的3维舌头动画。  相似文献   

12.
This paper describes an approach for automatic scoring of pronunciation quality for non-native speech. It is applicable regardless of the foreign language student’s mother tongue. Sentences and words are considered as scoring units. Additionally, mispronunciation and phoneme confusion statistics for the target language phoneme set are derived from human annotations and word level scoring results using a Markov chain model of mispronunciation detection. The proposed methods can be employed for building a part of the scoring module of a system for computer assisted pronunciation training (CAPT). Methods from pattern and speech recognition are applied to develop appropriate feature sets for sentence and word level scoring. Besides features well-known from and approved in previous research, e.g. phoneme accuracy, posterior score, duration score and recognition accuracy, new features such as high-level phoneme confidence measures are identified. The proposed method is evaluated with native English speech, non-native English speech from German, French, Japanese, Indonesian and Chinese adults and non-native speech from German school children. The speech data are annotated with tags for mispronounced words and sentence level ratings by native English teachers. Experimental results show, that the reliability of automatic sentence level scoring by the system is almost as high as the average human evaluator. Furthermore, a good performance for detecting mispronounced words is achieved. In a validation experiment, it could also be verified, that the system gives the highest pronunciation quality scores to 90% of native speakers’ utterances. Automatic error diagnosis based on a automatically derived phoneme mispronunciation statistic showed reasonable results for five non-native speaker groups. The statistics can be exploited in order to provide the non-native feedback on mispronounced phonemes.  相似文献   

13.
针对医学舌体数字图像的准确分割,提出了一种基于细菌觅食优化算法(BFOA) 和 Snake 活动轮廓模型相组合的舌体分割算法。首先,以信息熵与 Kapur 算法相结合作为自适 应函数来改进 BFOA 算法,通过改进的 BFOA 算法计算舌体图像的最佳图像二值化阈值,并将 舌体图像二值化;然后,利用舌体图像的对称性提取舌体的关键边缘点,并基于 B-样条插值算 法由关键点集合插值得到闭合的 B-样条曲线,作为 Snake 模型的初始轮廓;最后,通过 Snake 模型计算求解,即可准确提取舌体的轮廓曲线。实验结果表明,改进算法能够高精度地分割出 舌体图像,并能消除基本 Snake 模型在初始轮廓曲线选取中存在的人机交互难题,实现了舌体 图像的自动分割。  相似文献   

14.
This paper presents a system that transforms the speech signals of speakers with physical speech disabilities into a more intelligible form that can be more easily understood by listeners. These transformations are based on the correction of pronunciation errors by the removal of repeated sounds, the insertion of deleted sounds, the devoicing of unvoiced phonemes, the adjustment of the tempo of speech by phase vocoding, and the adjustment of the frequency characteristics of speech by anchor-based morphing of the spectrum. These transformations are based on observations of disabled articulation including improper glottal voicing, lessened tongue movement, and lessened energy produced by the lungs. This system is a substantial step towards full automation in speech transformation without the need for expert or clinical intervention.Among human listeners, recognition rates increased up to 191% (from 21.6% to 41.2%) relative to the original speech by using the module that corrects pronunciation errors. Several types of modified dysarthric speech signals are also supplied to a standard automatic speech recognition system. In that study, the proportion of words correctly recognized increased up to 121% (from 72.7% to 87.9%) relative to the original speech, across various parameterizations of the recognizer. This represents a significant advance towards human-to-human assistive communication software and human–computer interaction.  相似文献   

15.
研究中文发音过程中舌头运动的3D可视化问题。根据核磁共振数据构建舌头精细的3D模型,在此基础上,提取舌背表面处3个点的EMA数据为驱动源,利用弹簧网技术真实再现中文发音过程中的舌头运动。为了验证文中建模和舌头运动合成方法的有效性,使用计算机图形学的方法模拟舌头运动的细节效果,并对比其与由语言学家亲自拍摄的“普通话发音器官动作特征”的X光影像。实验表明,文中方法实现的3D舌头运动符合真实的舌头运动情况,拥有广泛的应用前景。  相似文献   

16.
基于G.729协议的算法优化及仿真实现研究   总被引:3,自引:0,他引:3  
孙宏斌  杨艺山 《计算机仿真》2006,23(3):88-91,171
随着数字通信技术的发展及商业应用需求的增加,数字语音压缩编码问题成为当前研究的热点。该文根据G.729语音压缩协议,采用TMS32OC54x系列芯片进行数字信号处理(DSP)系统设计,提出了一种新的语音处理方法。首先设计了编码解码器仿真流程,并用高级语言对其进行仿真;在此基础上对原协议算法进行优化,提出了舍弃乘积为零的运算优化和粗化搜索优化两种改进算法。仿真实验表明,该方法在基本保持原语音信号前提下,可较大幅度地降低运算量,提高处理速度,具有较大的实践意义。  相似文献   

17.
舌象特征的自动分析是中医舌诊客观化的核心内容。舌苔颜色作为舌象最基本的特征,其分类的准确程度决定了后续舌象分析的有效性。因此,提出了基于轻型卷积神经网络架构的舌苔颜色分类方法。考虑到实际采集中舌象样本较少且类别不平衡的特点,对舌象样本中不平衡的舌苔颜色类别进行数据扩充;通过设计轻型卷积神经网络,将特征提取和分类纳入到一个框架中统一进行处理,利用数据驱动学习图像与其属性的映射关系,得到舌苔颜色分类模型,从而实现对舌象样本的苔色分类。实验结果表明,提出的舌苔颜色分类方法可以取得94. 85%的分类准确率,对辅助中医临床诊疗及临床研究具有现实意义。  相似文献   

18.
文语转换是中文信息处理中研究的热点,是实现人机语音通信的一项关键技术。文章对实现中文文语转换的整个过程进行了初步分析和研究,给出了基于语音数据库的文语转换方法和实现过程。具体介绍了语音库的建立,分析了文本录入、文本分词、文本正则化、语音标注、韵律处理和语音合成等各个环节处理的内容及技术难点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号