首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 250 毫秒
1.
赵晖  唐朝京 《电子与信息学报》2009,31(12):3010-3014
为了合成具有真实感的视频序列,该文提出一种基于汉语视频三音素的可视语音合成方法。根据汉语的发音规律和音素与视素的对应关系,该文提出视频三音素的概念。在此基础上,建立隐马尔可夫(HMM)训练与合成模型,在训练过程中使用了视频音频联合特征,并加入了动态特征。在合成过程中,连接视频三音素HMM模型形成句子HMM,并从中提取特征参数,合成可视语音。从主观和客观评估结果来看,合成视频的真实感强,满意度较高。  相似文献   

2.
语音自动评估对于语音识别非常重要,但由于缺少足够的发音错误样本,所以对每个音素进行建模以实现准确的发音验证是不切实际的.因此,提出了一种新的方法来处理这种不平衡的数据分布,通过建立多个单类支持向量机来评估每个音素是否正确.使用一组语音属性特征训练一类支持向量机来模拟每个音素的正确发音;一类支持向量机模型通过测量新数据与...  相似文献   

3.
为实现音视频语音识别和同时对音频视频流进行准确的音素切分,该文提出一个新的多流异步三音素动态贝叶斯网络(MM-ADBN-TRI)模型,在词级别上描述了音频视频流的异步性,音频流和视频流都采用了词-三音素-状态-观测向量的层次结构,识别基元是三音素,描述了连续语音中的协同发音现象.实验结果表明:该模型在音视频语音识别和对音频视频流的音素切分方面,以及在确定音视频流的异步关系上,都具备较好的性能.  相似文献   

4.
根据汉语拼音的构成及发音时的唇动特点,对汉语复韵母进行了分类,提出了一套适合各类汉语复韵母发音特点的动态视位模型,再利用Directx9.0进行图形的变换及渲染,使三维人脸口形的变换过程更加丰富自然.较传统的二维人脸动画更加灵活、生动,可广泛应用于三维游戏中角色语音动画的制作、虚拟主持人配音等方面。  相似文献   

5.
TTS语音单元边界的自动切分   总被引:2,自引:0,他引:2  
语音单元边界的准确切分对基于波形拼接的语音合成系统至关重要。文章采用了两步切分方法,第一步中先由基于HMM模型的强制对齐方法得到初始的边界.在第二步中提出用基于前后音素的边界模型来修正初始边界。为解决训练数据不足的问题,提出用分类与衰退树将前后因素发音相近的边界模型进行聚类。这样可以根据训练数据的多少,动态调节边界模型的数目,以保证模型训练的可靠性。在对中文语音库的实验中,自动切分的准确度由78.7%提高到91.5%。  相似文献   

6.
《现代电子技术》2018,(10):179-182
传统的英文发音识别系统对于学习者的错误发音不能及时进行反馈与纠正,存在误导学习者以及学习者英文水平提高缓慢的弊端。在此设计新的英文发音错误语音自动识别系统,其由语音录制模块、语音播放模块、英语发音评分模块和发音共振峰图像显示模块构成,给出评分模块的发音评分流程,实现英文发音的有效评分以及评分的存储,系统通过发音共振峰图形显示模块,清晰地表达出学习者发音与标准发音的不同之处,纠正其错误读音。通过英语音素检错程序使用独立阈值的方式来提高错误读音的检测性能,对不同音素用独立阈值进行衡量,使得英语发音中的错误语音自动识别结果更加科学化、精准化。实验结果表明,所设计的系统具有较高的错误语音自动识别能力。  相似文献   

7.
本文着眼于语音可视化,目的在于揭示中英文辅音的发音运动.然而,交叉语言比较的首要任务是消除特定说话人生理特性等音素引起的固有差别,本文采用了基于说话人归一化的普氏算法来进行说话人归一化处理,接着利用分层聚类分析算法和多维标度定位算法对相似发音对进行了量化的比较,从而获得了英汉相似音素发音的元音对比最小对和辅音对比最小对,并揭示了这2种语言的易混淆发音文本对在发音动作上的区别.  相似文献   

8.
本文通过电磁发音仪(Electro Magnetic Articulography,EMA)AG500,以200帧/秒的采样率采集了英语和汉语的标准发音动作数据,然而,交叉语言比较的首要任务就是要消除特定说话人声道特性及其它个人生理特性等音素而引起的固有差别,本文采用了基于说话人归一化的普氏算法来进行说话人归一化处理,获得了英汉相似音素发音的元音对比最小对,最后成功揭示了2种语言易混淆元音发音文本对在口腔内外发音动作上的区别.  相似文献   

9.
徐凡  杨剑峰  颜为之  王明文 《信号处理》2021,37(10):1860-1871
方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差CNN(Convolutional Neural Networks)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。   相似文献   

10.
针对人脸语音动画提出了基于小波包分析的语音特征提取算法,为了表征语音的动态特性,采用了特征差分和基于口形帧前后关联的多帧语音特征提取,井利用主成分分析(Principle Component Analysis,PCA)降低了输入语音的特征维数.基于隐马尔可夫模型(Hidden Markov Model,HMM)的可视语音合成系统的实验表明该算法提取的语音参数比传统的Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficients,MFCC)合成的口形效果要好,有利于可视语音合成的研究.  相似文献   

11.
特定三维人脸的建模与动画是计算机图形学中一个非常令人感兴趣的领域.本文提出了一种新的从两幅正交照片建立特定人脸的模型以及动画方法,首先以主动轮廓跟踪技术snake自动获取人脸特征点的准确位置,然后以文中的局部弹性变形(local elastic deformation)方法进行通用人脸模型到特定人脸的定制,并辅以采用图像镶嵌技术生成的大分辨率纹理图像施行纹理绘制,该方法以特征点的位移和非特征点与特征点的相对位置为基础计算局部人脸面部的变形,同时还能够实现人脸剧烈的面部变化和动作,与肌肉模型相结合,可很好地实时完成人脸的动画,具有快速高效的特点.最后,给出了所得到的实验结果.  相似文献   

12.
An automatic field motion image synthesis scheme (driven by speech) and a real-time image synthesis design are presented. The purpose of this research is to realize an intelligent human-machine interface or intelligent communication system with talking head images. A human face is reconstructed on the display of a terminal using a 3-D surface model and texture mapping technique. Facial motion images are synthesized naturally by transformation of the lattice points on 3-D wire frames. Two driving motion methods, a text-to-image conversion scheme and a voice-to-image conversion scheme, are proposed. In the first method, the synthesized head image can appear to speak some given words and phrases naturally. In the second case, some mouth and jaw motions can be synthesized in synchronization with voice signals from a speaker. Facial expressions other than mouth shape and jaw position can be added at any moment, so it is easy to make the facial model appear angry, to smile, to appear sad, etc., by special modification rules. These schemes were implemented on a parallel image computer system. A real-time image synthesizer was able to generate facial motion images on the display at a TV image video rate  相似文献   

13.
With better understanding of face anatomy and technical advances in computer graphics, 3D face synthesis has become one of the most active research fields for many human-machine applications, ranging from immersive telecommunication to the video games industry. In this paper we proposed a method that automatically extracts features like eyes, mouth, eyebrows and nose from the given frontal face image. Then a generic 3D face model is superimposed onto the face in accordance with the extracted facial features in order to fit the input face image by transforming the vertex topology of the generic face model. The 3D-specific face can finally be synthesized by texturing the individualized face model. Once the model is ready six basic facial expressions are generated with the help of MPEG-4 facial animation parameters. To generate transitions between these facial expressions we use 3D shape morphing between the corresponding face models and blend the corresponding textures. Novelty of our method is automatic generation of 3D model and synthesis face with different expressions from frontal neutral face image. Our method has the advantage that it is fully automatic, robust, fast and can generate various views of face by rotation of 3D model. It can be used in a variety of applications for which the accuracy of depth is not critical such as games, avatars, face recognition. We have tested and evaluated our system using standard database namely, BU-3DFE.  相似文献   

14.
倪奎  董兰芳 《电子技术》2009,36(12):64-67
人脸动画广泛地应用于游戏行业、远程会议、代理和化身等许多其它领域,近年吸引了很多学者的研究,其中口腔/眼睛等器官的动画一直是一个较大的难点。本文提出了一种将口腔/眼睛的器官样本图片融合到人脸图像中并根据单张中性人脸图片生成人脸动画的方法。该方法根据特征点生成样条,在极坐标上对样条插值来实现空间映射,然后采用后向映射和插值进行图像重采样得到融合图像。实验结果表明,该方法产生的融合图片较为自然,能实现口腔/眼球等器官的运动,能满足人脸动画生成的实时性要求。  相似文献   

15.
The image principle is extended to the time-harmonic problem of TE/TM wave propagation and reflection in a waveguide. The fictitious image generating the reflected field is derived with the aid of Heaviside operational calculus and a transmission-line model of the waveguide. The operational calculus reveals that the image of a point-like source in front of the waveguide discontinuity is another point-like source in the mirror-image position and a line source extending from the mirror-image position to infinity. The image derived with operational calculus turns out to be independent of the waveguide's transverse geometry  相似文献   

16.
The effectiveness of cryosurgery in treating tumors is highly dependent on knowledge of freezing extent, and therefore relies heavily on real-time imaging techniques for monitoring. Electrical impedance tomography (EIT), which utilizes tissue impedance variation to construct an image, is very well suited to cryosurgery since frozen tissue impedance is much higher than that of unfrozen tissue. In this study, we explore cryosurgical monitoring as a previously uninvestigated application for EIT. The feasibility of bio-impedance measurements to detect ice front propagation is demonstrated by freezing planar tissue samples one-dimensionally while measuring impedance along a linear array. The experimental results compare favorably to a simple finite element model designed to provide an electrical field visualization tool.  相似文献   

17.
夏涛  黄俊  徐太秀 《电讯技术》2023,63(8):1228-1236
针对目前的图像篡改数据集中缺少同时包含多种篡改操作的单张图像的问题,构建了包含多种图像篡改手段的综合数据集(MTO Dataset),每张图片包含复制移动、拼接和移除中的2种或3种篡改操作。针对多篡改检测,提出了一种基于改进CenterNet的图像多篡改检测模型,将RGB图像和经过隐写分析得到的噪声特征图作为特征提取网络的输入,在特征提取网络ResNet-50的每一层卷积前加入门控通道注意力转换单元以促进特征通道间关系。为得到更具辨别性的特征,通过改进后的注意力机制自适应学习并调节特征权重,最后使用改进的损失函数优化边框预测的准确度。实验结果证明,与当前先进模型DETR、EfficientDet和VarifocalNet相比,该模型的F1分数提升0.4%~7.4%,检测速率提高1.32~3.06倍。  相似文献   

18.
在深入的对频谱脸法和Fisherface方法进行研究后,综合这两种方法的优点,提出了一种基于频谱脸和Fisher-face的人脸识别新方法。频谱脸方法主要是采用二维小波变换和傅立叶变换。因为人脸图像的低频部分对人脸的表情变化是不敏感的,所以对人脸图像使用二维小波变换,提取人脸图像的低频部分。对人脸图像的低频部分使用傅立叶变换,从而获得原人像的一个低维空间的表达。但是频谱脸特征维数仍然较高,所以在频谱脸法的基础上继续提取人脸频谱图像的Fisherface特征,降低特征的维数,提高识别效率。利用人脸面部构造产生的灰度特性提取眼睛,利用嘴唇的色度特征分割出嘴巴,进而根据眼睛和嘴巴构成三角形模板的特性,精确定位人脸在图像中的位置。实验结果表明,这种结合肤色和面部特征的算法,能够对人脸进行较快速、准确的定位,而且结果比较稳定可靠。  相似文献   

19.
在穿墙雷达成像领域,建筑墙体会改变电磁波的传播路径和速度,引入目标散射回波延迟误差,造成隐蔽目标成像散焦、位置偏移和多径幻象等。对此提出一种墙体补偿技术,准确计算像素点与天线之间的聚焦延时,修正目标图像位置偏移和散焦等,实现聚焦目标图像。首先,对回波数据采用后向投影成像算法,得到原始图像。其次,利用Radon变换,并结合图像连通域检测得到墙体前后表面的位置。最后,通过计算墙体前后表面距离,得到约束条件;在该条件下,假定墙体厚度和介电常数,对墙后目标进行补偿成像。Matlab仿真数据验证了该算法的有效性。  相似文献   

20.
激光成像雷达在飞行器避障过程中的应用   总被引:6,自引:3,他引:3  
飞行器前视激光雷达通过测距得到前方距离像,由得到的距离像可以得到飞行器前面障碍物的形状、高度、宽度等信息,根据得到的信息,由飞行器惯导和飞行器在任意时刻的姿态可以决定飞行器的避障过程。根据激光成像雷达探测到的前视三维障碍物信息,推导了飞行器惯导约束下的避障算法。用该推导的算法在真实地形图上进行了模拟实验,实验结果表明算法是正确性的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号