期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

蔡明琦凌震华戴礼荣《数据采集与处理》2014,29(2):204-210

发音动作参数描述发音过程中唇、舌、颚等发音器官的位置与运动。本文对给定文本与语音情况下中文发音动作参数的预测方法进行研究。首先,设计了基于电磁发音仪的发音动作参数采集与预处理方法,通过头部运动规整与咬合面规整保证了发音动作参数的可靠性;其次,将隐马尔科夫模型应用于中文发音动作参数预测,采用包含声学参数与发音动作参数的双流模型结构实现从声学参数到发音动作参数的映射,并且分析对比了建模过程中不同上下文属性、模型聚类方式以及流间相关性假设对于中文发音动作参数预测性能的影响。实验结果表明,当采用三音素模型、双流独立聚类并且考虑流间相关性的情况下,可以获得最优的预测性能。相似文献

2.

一种应用虚拟发音头像的普通话聋儿言语康复系统

刘晓千燕楠王岚《集成技术》2013,2(4):68-73

本文介绍了一种新型的包含虚拟发音人头像的语言训练系统并对该系统在听障儿童语言康复训练中的实用性进行了研究。该系统以虚拟三维发音人头像的形式再现了汉语中常见的 20 个单音节字的发音动作,并将之用于语言康复训练。系统运用 EMA(三维电磁发音仪)设备采集内部及外部发音器官运动轨迹作为驱动数据,有效模拟了汉语发音。此外,系统还包括一个听力训练模块和一个朗读训练模块,用于辅助聋儿的发音康复训练。文章对系统发音模拟功能的准确性进行了人工评估,并应用系统对两名 4 至 5 岁之间的聋儿进行了初步的康复训练。初步评估及训练的结果表明：系统的发音模拟功能可有效模拟发音器官的动作,有助于提高听障儿童的语言能力;同时,系统的设计风格较易获得幼儿认同。研究证明,本系统在听障儿童发音训练方面是有效的,具有较高的应用价值。相似文献

3.

基于超声成像技术的发音生理舌体研究方法综述

张金溪《计算机应用研究》2021,38(1):15-22

对发音时的舌体进行超声成像是分析舌体运动的一种有效方法,而对舌体超声成像序列的处理分析可以为语言学、语音学、语音处理和舌体建模等应用领域提供有价值的信息。基于国内外现有研究成果,归纳了舌体超声成像中舌体轮廓线的跟踪与提取技术,分析了不同舌体轮廓线的量化比较方法,指出了生理发音舌体模型的构建方法。旨在通过舌体超声技术的梳理,能够在发音生理研究和语言研究方面为有关研究人员提供参考,在将来的研究中,能够改进相关技术,并将计算机领域中的新算法、新模型应用于发音生理舌体研究中,进一步提高描述语音现象的科学性和准确性。相似文献

4.

汉语三维发音动作合成和动态模拟 总被引：2，自引：0，他引：2

郑红娜朱云王岚陈辉《集成技术》2013,2(1):23-28

本文以帮助聋儿言语康复为出发点,从聋儿音频发音数据中获得了聋儿易错发音文本以及聋儿易混淆发音文本对。设计了一个数据驱动的3D说话人头发音系统,该系统以EMA AG500设备采集的发音动作为驱动数据,逼真模拟了汉语的发音,从而可使聋儿观察到说话人嘴唇及舌头的运动情况,辅助聋儿发音训练,纠正易错发音。最后对系统的性能进行了人工评测,结果表明:3D说话人头发音系统可以有效地模拟说话人发音时口腔内外器官的发音动作。此外,本文还用基于音素的CM协同发音模型合成的方法,合成了聋儿易错发音文本的发音动动作,并用RMS度量了合成发音动作与真实发音动作的误差,得到了均值为1.25mm的RMS误差值。相似文献

5.

发音过程中舌头运动的3D可视化方法^*

李睿於俊罗常伟汪增福《模式识别与人工智能》2016,29(5):385-392

研究中文发音过程中舌头运动的3D可视化问题。根据核磁共振数据构建舌头精细的3D模型,在此基础上,提取舌背表面处3个点的EMA数据为驱动源,利用弹簧网技术真实再现中文发音过程中的舌头运动。为了验证文中建模和舌头运动合成方法的有效性,使用计算机图形学的方法模拟舌头运动的细节效果,并对比其与由语言学家亲自拍摄的“普通话发音器官动作特征”的X光影像。实验表明,文中方法实现的3D舌头运动符合真实的舌头运动情况,拥有广泛的应用前景。相似文献

6.

基于多普勒雷达的发音动作检测与命令词识别

吴鹏飞凌震华《小型微型计算机系统》2020,(2):426-430

本文提出了一种基于多普勒微波雷达的发音动作检测与命令词识别方法.该方法利用微波雷达的多普勒特性检测发音过程中面部肌肉的微小变化,实现不依赖语音声学信号的命令词识别.本文首先设计实现了一个基于多普勒微波雷达的发音动作检测系统,并基于此系统构建了一个包含2个说话人的命令词识别数据库.然后,本文研究了基于支持向量机和卷积神经网络模型的雷达数据分类方法,并对比了不同模型和特征组合在单话者建模和多话者建模情况下的命令词识别性能.实验结果表明,本文设计的数据采集系统可以有效检测发音动作,所构建的卷积神经网络分类器可以取得90%以上的命令词识别准确率. 相似文献

7.

基于发音轨迹的可视语音合成

《计算机应用与软件》2013,(6)

着眼于语音可视化。为呈现真实说话人各发音器官的运动,提出一种改进的CM协同发音模型,并采用该方法合成汉字的发音轨迹,进而以此驱动和控制虚拟3D音视频说话人头模型,直观呈现通常可见及不可见发音器官的发音运动。实验证明:由改进方法获得的合成发音轨迹更逼近真实发音轨迹。同时,为了定量比较舌读和唇读在语音感知和识别中的作用,设计三组感知实验,实验结果显示:叠加了唇读信息的感知识别率较单纯的加噪语音的识别率提高了25.8%;而叠加了舌读信息的识别率较单纯听觉信息的识别率提高了26.7%。因此,当语音恶化时,舌读信息可提供大于唇读信息的补充作用,且舌读信息与唇读信息一样具有识别力。相似文献

8.

普通话发音过程中的舌3维运动控制模型

下载免费PDF全文

刘蝉张少川钱兆鹏牛海军《中国图象图形学报》2019,24(11):1942-1951

目的言语发音过程中发音器官及其运动形态的精确可视化对发音机制的理解、言语疾病的诊断和治疗以及人机言语交互研究都具有重要意义。舌作为言语产生的重要器官,因其运动速度快、变形复杂、发音过程中不可见等原因,可视化比较困难。为此,提出一种基于统计模型法研究汉语普通话元辅音发音时舌的3维动态控制模型。方法首先采集普通话元辅音发音过程中讲话人的磁共振图像（MRI）,采用手动标记法提取舌轮廓并建立静态3维网格模型;其次以模型顶点为变量,通过线性主成分分析法提取控制参数并建立舌运动控制方程;最后对发音过程中舌运动控制仿真效果进行评估。结果共提取含舌尖、舌体、舌背和下颌在内的6个3维模型运动控制参数,下颌参数控制下颌张合引起的舌旋转运动,舌体和舌背参数分别控制舌前后、拱起和凹陷运动,舌尖参数分别控制舌尖上下、前后和上翘运动,所提取的6个参数可以表达87.4%的舌3维运动变化,仿真效果优于其他语言的运动控制结果。结论本文方法可以有效应用于汉语普通话发音的舌建模与3维运动控制,降低舌3维运动建模的复杂性,研究结果可以为汉语普通话发音过程中的器官可视化提供有用信息。相似文献

9.

言语信息处理的进展 总被引：1，自引：0，他引：1

蔡莲红贾珈郑方《中文信息学报》2011,25(6):137-142

该文介绍了言语信息处理的进展,特别提到汉语言语处理的现状。言语信息处理涉及到言语识别、说话人识别、言语合成、言语知觉计算等。带口音和随意发音的言语识别有力的支持了语言学习与口语水平测评等应用;跨信道、环境噪音、多说话人、短语音、时变语音等因素存在的情况下提高识别正确率,是说话人识别的研究热点;言语合成主要关注多语言合成、情感言语合成、可视言语合成等;言语知觉计算开展了言语测听、噪声抑制算法、助听器频响补偿方法、语音信号增强算法等研究。将言语处理技术与语言、网络有效结合,促进了更加和谐的人机言语交互。相似文献

10.

基于语音感知的英语口语发音自动校准系统

张昕煜《自动化技术与应用》2023,(5):44-47

为提升英语口语发音质量，设计基于语音感知的英语口语发音自动校准系统。通过语音感知传感器与英语口语发音处理器设计系统硬件，采集英语口语发音数字信号，并以此为基础，对信号进行预加重、分帧加窗处理，获取信号特征MFCC系数，将MFCC系数作为训练数据集，构建发音检错模型，以检测到的错误发音为依据，对英语口语发音自动校准。实验结果表明系统英语口语发音检错正确率与校准发音质量评分更高，具备更加优质的性能。相似文献

11.

Front end analysis of speech recognition: a review

M. A. Anusuya S. K. Katti 《International Journal of Speech Technology》2011,14(2):99-145

Automatic speech recognition (ASR) has made great strides with the development of digital signal processing hardware and software. But despite of all these advances, machines can not match the performance of their human counterparts in terms of accuracy and speed, especially in case of speaker independent speech recognition. So, today significant portion of speech recognition research is focused on speaker independent speech recognition problem. Before recognition, speech processing has to be carried out to get a feature vectors of the signal. So, front end analysis plays a important role. The reasons are its wide range of applications, and limitations of available techniques of speech recognition. So, in this report we briefly discuss the different aspects of front end analysis of speech recognition including sound characteristics, feature extraction techniques, spectral representations of the speech signal etc. We have also discussed the various advantages and disadvantages of each feature extraction technique, along with the suitability of each method to particular application. 相似文献

12.

基于清浊音状态空间模型语音增强算法

张海云汪志鸿杜利民《微计算机信息》2006,22(25):293-295

基于语音状态模型的语音增强算法是当前语音信号处理的研究热点。把通常的LPC语音模型修正后,将得到两个语音模型:时变AR模型、时变双AR模型。但是利用这些模型增强语音时,都没有考虑到语音的清音、浊音区别。为此本文引入了语音清浊音状态空间模型,这种模型在描述语音方面比时变AR模型、时变双AR模型要强,而且物理含义明显。同时在用含噪语音信号预测纯净语音信号时,引入遗忘因子和粒子滤波算法以降低计算复杂性,减小运算量。实验证明,增强后的语音信号信噪比有一定提高,且优于传统的LPC模型。相似文献

13.

Prosody based audiovisual coanalysis for coverbal gesture recognition

Kettebekov S. Yeasin M. Sharma R. 《Multimedia, IEEE Transactions on》2005,7(2):234-242

Despite recent advances in vision-based gesture recognition, its applications remain largely limited to artificially defined and well-articulated gesture signs used for human-computer interaction. A key reason for this is the low recognition rates for "natural" gesticulation. Previous attempts of using speech cues to reduce error-proneness of visual classification have been mostly limited to keyword-gesture coanalysis. Such scheme inherits complexity and delays associated with natural language processing. This paper offers a novel "signal-level" perspective, where prosodic manifestations in speech and hand kinematics are considered as a basis for coanalyzing loosely coupled modalities. We present a computational framework for improving continuous gesture recognition based on two phenomena that capture voluntary (coarticulation) and involuntary (physiological) contributions of prosodic synchronization. Physiological constraints, manifested as signal interruptions during multimodal production, are exploited in an audiovisual feature integration framework using hidden Markov models. Coarticulation is analyzed using a Bayesian network of naive classifiers to explore alignment of intonationally prominent speech segments and hand kinematics. The efficacy of the proposed approach was demonstrated on a multimodal corpus created from the Weather Channel broadcast. Both schemas were found to contribute uniquely by reducing different error types, which subsequently improves the performance of continuous gesture recognition. 相似文献

14.

基于视频、音频和文本的视频分段

朱映映周洞汝《计算机工程与应用》2001,37(3):85-87

在分析应用视频数据的过程中,视频分段是分析,组织,应用视频数据的基础。由于视频数据的多样性,传统的分段方法不能给出令人满意的结果,一般需要通过人机交互来进行。文中将较为成熟的文本分析、语音处理、图像处理三种技术进行综合,互为补充,对视频流进行分割。文本分析的对象是语音转换成的文本、标题、注释等。语音处理包括语音识别和语音信号分析。语音识别将视频中的自然语言转换为文字。语音信号分析对视频材料中的语音成分进行基础分析。图像处理主要用来处理视频中的图像部分。文章阐述了视频流的分段层次,文本分析,语音处理算法以及镜头突变,镜头渐变识别算法的思想。相似文献

15.

端到端流式语音识别研究综述

下载免费PDF全文

王澳回张珑宋文宇孟杰《计算机工程与应用》2023,59(2):22-33

语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容：（1）详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;（2）介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;（3）介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;（4）讨论了端到端流式语音识别模型的未来发展与展望。相似文献

16.

Parametric modeling of speech by complex AM and FM signals

Pradip Sircar Rakesh K. Saini 《Digital Signal Processing》2007,17(6):1055-1064

Complex AM and FM signal models can be used for parametric modeling of speech signals. Complex AM signal model has been found to be suitable for voiced speech phonemes, whereas complex FM signal model can be used for representation of unvoiced speech phonemes. This article explains the basic principles of parameter estimation of these two models, and presents techniques for fast on-line processing of speech data and automated model fitting. 相似文献

17.

语音情感智能识别的建模与仿真

黄晓峰彭远芳《计算机工程与应用》2012,48(29):142-146,238

语音情感信息具有非线性、信息冗余、高维等复杂特点,数据含有大量噪声,传统识别模型难以消除冗余和噪声信息,导致语音情感识别正确率十分低.为了提高语音情感识别正确率,利用小波分析去噪和神经网络的非线性处理能力,提出一种基于过程神经元网络的语音情感智能识别模型.采用小波分析对语音情感信号进行去噪处理,利用主成分分析消除语音情感特征中的冗余信息,采用过程神经元网络对语音情感进行分类识别.仿真结果表明,基于过程神经元网络的识别模型的识别率比K近邻提高了13％,比支持向量机提高了8.75％,该模型是一种有效的语音情感智能识别工具. 相似文献

18.

基于改进谱减方法的语音增强研究

丁伟 ;吴小培《微机发展》2008,(9):98-100

由于噪声的影响导致语音信号的质量降低,因此需要对语音信号进行语音增强。语音增强是语音信号处理的前沿领域,其主要目标足从带噪语音中提取纯净的原始语音信号。介绍了实现语音增强方法的原理,利用实验仿真了传统谱减法和改进谱减方法,改进法通过对带噪信号进行参数调整,然后进行频域谱减,实验结果表明改进方法对语音增强效果明显好于传统方法。此外,对传统谱减法和改进谱减法的信噪比分别进行了计算,结果表明改进谱减方法的信噪比相对传统谱减方法有很大提高。相似文献

19.

基于短时平均能量和短时过零率的藏语语音端点检测研究

卓嘎边巴旺堆姜军《数字社区&智能家居》2014,(11):7466-7469

语音端点检测是语音处理分析过程中的重要环节之一,该文介绍了语音端点检测的两个传统算法即短时平均能量和短时过零率,并将这两种算法结合起来进行藏语语音进行端点检测。运用Matlab编程和仿真验证了双门限判断法在藏语语音端点检测中的准确性。这种方法降低了藏语语音处理的时间、提高了处理的质量、可用来进行一些藏语语音识别的特征参数的提取。相似文献

20.

基于内容的音频与音乐分析综述 总被引：1，自引：0，他引：1

张一彬周杰边肇祺郭军《计算机学报》2007,30(5):712-728

机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音乐信号分析.其中,语音信号处理与识别早已成为一个传统的研究热点.随着信息科学与技术的迅速发展,基于内容的音频与音乐信号分析也逐渐成为一个新的研究热点,近几年来取得了大量研究成果.文章将对1990年以后该领域上所取得的研究成果进行综述,包括基于内容的音频或音乐信号自动分类、分割、检索以及音乐作品自动分析等内容. 相似文献