首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
将现有唇读识别常用的双唇线口型模板简化优化,创建了单唇线即内唇口型模板,并结合内唇的灰度特征,利用相关函数的相似性匹配实现唇语识别.该方法在准确有效提取特征的同时降低了运算复杂度,实验数据为单纯的视觉信息,集合为单个发音时,识别率可达90%.实验证明新的尝试具可行性.  相似文献   

2.
1 引言自然人机交互方式使得人同计算机的交流不再局限于键盘、鼠标等外设.而是通过语言及手势、表情、唇动等形体语言来进行,从而使得人机交互变得像人与人之间的交流一样轻松自如。唇读通常被视为说话过程中伴随的辅助信息,它有助于对说话者提供信息的更准确理解,减弱噪音干扰。计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音识别,或者是直接对序列图像进行分类和识别。发音是一个唇部和喉部肌肉连续运动的过程,人在发相同的音时,肌肉运动是极为相似的。构成运动的各个状态的描述是问题的关键。描述不同的状态就必须明确各种口型。因此  相似文献   

3.
唇读中序列口型的分类   总被引:3,自引:0,他引:3  
本文针对汉语中所有声韵母发音序列中的连续口型提出了一种口型分类的思路。在建立了覆盖所有声韵母的汉语双模态语料库的基础之上,本文提出了一种两次分类的方法,对语料库中的图像进行唇的分割、定位及特征提取,并依靠选择的特征,将声韵母的发音序列中的口型聚为15类。本文的目的是在此分类的基础上,明确唇读识别阶段的状态数,减小搜索的空间,提高收敛速度。  相似文献   

4.
基于句子级的唇语识别技术   总被引:1,自引:0,他引:1  
唇读是通过口型变化判断话者内容,唇读研究属于人机交互范畴。识别在生物界大体包括两个方面,人物身份的鉴别和基本内容的认知。现阶段唇读的研究主要是基于说话者内容的识别,对采集的话者唇动图像序列进行有效的预处理(包括视频切割,图像增强,唇边缘定位),预处理后如何选择合适的特征是解决识别准确性的关键问题,在唇读识别研究中采用了基于口型变化序列的形状特征和图象特征进行实验。最后采用半连续hmm模型完成计算机唇语识别。  相似文献   

5.
为了快速合成真实感强的口型,在Waters肌肉模型的基础上,提出了一种新的唇区肌肉模型,弥补了Waters模型对于唇区肌肉的较复杂运动描述不完全的不足。该模型以面部解剖学为基础,通过面部运动的解剖学机理的研究,将唇区的整体运动表示为若干个子运动的线性组合。该模型可用于语音驱动的动画合成。此时,只需在说话人的唇区标定少数几个特征点,就可以获得一组唇区肌肉参数,进而建立相应的肌肉模型。借助于该模型,可以在唇区附近的线性肌的联合作用下,合成说话时的各种口型。实验结果表明,该肌肉模型不仅计算代价小,且合成的口型真实感较强,具有很强的实用性。  相似文献   

6.
由于唇动序列和语言序列是一对多的映射,计算机自动唇读识别仅使用HMM是远远不够的.以HMM为基础,结合语言先验知识,建立了新的唇动识别模型--HLM (HMM and Bigram Language Model).HLM突破了单纯采用HMM计算声学后验概率进行识别的传统框架,将HMM和语言背景知识紧密联系起来,依据语言模型对语言背景知识进行统计,在识别阶段融合声学后验概率和语言学先验概率进行判决.实验结果表明,HLM可使单音识别率提高7.3%,句子识别率提高19.5%.另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确率达70.5%.  相似文献   

7.
实现一种结合CbCr颜色空间、Fisher变换及变形模板的自动唇部定位及唇轮廓提取、跟踪方法.首先在CbCr空间建立肤色模型进行人脸检测、定位,并由人脸几何特征进行唇部粗定位.然后结合唇色模型进行Fisher变换使肤、唇色差别明显化,提出根据亮度信息对变换结果预处理后用Otsu法进行图像分割,经唇色模型进一步验证后实现唇部精定位.再使用变形模板来进行嘴唇轮廓特征提取,为增强内轮廓定位的鲁棒性,本文提出对经亮度预处理和唇色模型验证得到的口腔区域边缘图进行曲线拟合来实现内轮廓定位.最后,将唇读图像序列中上一帧的唇部定位结果拓展后作为当前帧的预测区域再进行处理来实现唇动跟踪.  相似文献   

8.
非监督、多级嘴唇区域分割方法   总被引:2,自引:1,他引:2  
该文介绍了一个非监督、多级嘴唇区域分割检测方法。首先提出利用fisher变换增强嘴唇区域,然后利用嘴唇在人脸区域的分布面积比,提出利用统计阈值完成嘴唇的初步分割,最后利用嘴唇对称性和轮廓光滑性的先验知识,提出了基于局部阈值调整完成嘴唇的精细分割。实验证明该方法在不同光照条件下、对不同人、各种表情都能自动地、鲁棒地、精确地检测出嘴唇区域,并较准确提取初步的嘴唇几何参数。利用这些几何参数作为轮廓定位的初始化条件,可以大大提高变形模板和ASM模型等嘴唇轮廓定位算法的速度和准确度。  相似文献   

9.
针对说话人识别技术多基于语音的现状,文章提出了一种新颖的基于唇动的说话人识别技术。通过离散余弦变换,从说话人讲话时的图像序列提取那些既反映说话人嘴部生理特性也反映了说话人唇动的行为特性的视觉特征。基于这些特征,为说话人建立静态-动态混合模型,其中使用半连续隐马尔可夫模型为说话人建立动态模型。在一个小型的视觉语料库上,我们分别对说话人辨认系统和确认系统进行实现。对说话人辨认系统,其文本有关与文本无关模式的正确率分别达到了100%和99.7%;对说话人确认系统,文本有关与文本无关模式的等错误率分别为0.09%与0.33%。  相似文献   

10.
本文考虑带旋转的人脸检测方法,提出了一种基于颜色空间以及模板匹配的快速人脸定位方法。首先从常用的颜色空间中选择出对光照因素稳健的肤色子空间,然后基于该子空间进行肤色检测方法得到人脸大致区域,最后采用模板匹配的方法确定人脸区域。实验结果表明,该方法速度快,对于带角度旋转的人脸定位有很好的效果。  相似文献   

11.
人眼检测是人脸检测与识别、驾驶员行为分析或MPEG4压缩中的关键技术,为了提高处理速度和检测结果的鲁棒性,提出了一种基于肤色检测和几何特征人眼快速定位方法;通过比较,选用YIQ空间和KL变换联合的方法检测肤色区域,然后运用面积阈值检测出备选人脸区域,并在备选人脸区域中通过灰度特征确定人脸特征区域的位置,并根据人眼的几何位置关系检测出其大致位置;通过对称性和相似性校验所得位置是否为真正的人眼位置,最后运用Hough变换确定人眼瞳孔中心的精确位置;试验表明,该方法操作简单,速度较快,能满足实时处理的要求,对不同的光照条件、姿态以及干扰背景具有较强的适应性。  相似文献   

12.
介绍了一种嵌入式系统上的孤立词语音识别算法.该算法基于连续隐含马尔可夫模型,根据嵌入式系统的特点,简化了经典的连续隐含马尔可夫模型,在主流个人数字助理(PDA)上实现了中等规模语音识别的实时处理,采用最大后验概率(MAP)自适应方法解决训练数据采集信道和PDA信道的不匹配问题.在系统的后端处理中,提出了一种基于置信测度的拒识方法改善系统的稳健性,最终使610个孤立词的识别任务,系统的等错误率小于5%;对集内发音拒识率为5%时,集内发音识别率达到95%.  相似文献   

13.
POP: Patchwork of Parts Models for Object Recognition   总被引:2,自引:0,他引:2  
We formulate a deformable template model for objects with an efficient mechanism for computation and parameter estimation. The data consists of binary oriented edge features, robust to photometric variation and small local deformations. The template is defined in terms of probability arrays for each edge type. A primary contribution of this paper is the definition of the instantiation of an object in terms of shifts of a moderate number local submodels—parts—which are subsequently recombined using a patchwork operation, to define a coherent statistical model of the data. Object classes are modeled as mixtures of patchwork of parts POP models that are discovered sequentially as more class data is observed. We define the notion of the support associated to an instantiation, and use this to formulate statistical models for multi-object configurations including possible occlusions. All decisions on the labeling of the objects in the image are based on comparing likelihoods. The combination of a deformable model with an efficient estimation procedure yields competitive results in a variety of applications with very small training sets, without need to train decision boundaries—only data from the class being trained is used. Experiments are presented on the MNIST database, reading zipcodes, and face detection.  相似文献   

14.
随着深度学习的不断发展,唇语识别领域的研究取得了重大进展,涌现了许多唇语识别的深度学习算法。依据识别对象的连续性,将唇语识别分为孤立唇语识别和连续唇语识别,并对各识别任务的深度学习方法进行了详细和深入的分析总结。从孤立唇语识别的深度学习方法和连续唇语识别的深度方法两个方面介绍了主流唇语识别方法,并对各方法的优缺点和性能进行比较;对不同数据集下代表性方法的特点和性能进行比较,对两类方法的优缺点和适用范围进行阐述;讨论了唇语识别方法存在的问题和挑战,并对唇语识别方法的研究趋势进行了展望。  相似文献   

15.
一种网络异常实时检测方法   总被引:30,自引:0,他引:30  
邹柏贤 《计算机学报》2003,26(8):940-947
传统的网络管理工具通常根据预先设定的阈值来报警,这种方法虽然简单,但适应性不好.因此出现了网络异常检测技术,有时异常检测技术不但能发现网络故障,而且具有预警的效果[1];该文介绍了一种新的实时网络流量异常检测方法,转换网络流量观测值序列并假定序列的局部是平稳的,然后建立AR模型,定义一个统计量来检测异常.结果表明,该检测方法具有GLR测试方法所没有的优点.  相似文献   

16.
具有依赖关系的周期任务实时调度方法   总被引:1,自引:0,他引:1  
随着多核技术在嵌入式领域的快速发展,越来越多的功能被集成在同一个平台上,任务之间的关系越来越复杂.而当前大多数的实时周期任务的调度模型都是不考虑任务之间关系的相互独立的任务模型.文中则针对具有依赖关系的周期任务,提出了一种基于ST(Simple-Tree)的实时周期任务调度模型,通过该模型来维护任务之间的依赖关系.此外,为了有效地提高系统利用率以及降低死限丢失率,文中还提出了可延迟时间越短越优先的调度方法并和RM算法、EDF算法进行仿真实验比较,结果表明该方法具有较高的核利用率和较低的死限丢失率.  相似文献   

17.
针对现有微表情自动识别方法准确率较低及微表情样本数量不足的问题,提出一种融合迁移学习技术与可分离三维卷积神经网络(S3D CNN)的微表情识别方法。通过光流法提取宏表情和微表情视频样本的光流特征帧序列,利用宏表情样本的光流特征帧序列对S3D CNN进行预训练,并采用微表情样本的光流特征帧序列微调模型参数。S3D CNN网络由二维空域卷积层及添加一维时域卷积层的可分离三维卷积层构成,比传统的三维卷积神经网络具有更好的学习能力,且减少了模型所需的训练参数和计算量。在此基础上,采用迁移学习的方式对模型进行训练,以缓解微表情样本数量过少造成的模型过拟合问题,提升模型的学习效率。实验结果表明,所提方法在CASME II微表情数据集上的识别准确率为67.58%,高于MagGA、C3DEvol等前沿的微表情识别算法。  相似文献   

18.
目前声纹识别系统已经实现较高的识别精度,但是随着目标说话人个数的增加,一般系统很难满足实时性的要求,由此提出一种双层识别模型。在第一层识别模型中,采用基于VQ-VPT(Vector Quantization-Vantage Point Tree)模型进行快速匹配,挑选出与测试者声纹特征最相近的K个目标说话人声纹模型。在第二层识别模型中,采用GMM-UBM(Gaussian Mixture Model-Universal Background Model)模型,精确匹配上层模型得到的K个目标说话人声纹模型,并做出最终的判决。实验验证,双层识别模型在确保高识别精度的前提下,大幅度的提高了系统的识别速度。  相似文献   

19.
在移动应用领域中,移动对象实时位置的区域查询在整个系统的分析、决策、预测等方面具有重要的作用.采用射频识别技术进行定位识别的实时定位系统具有对象分布区域化、不同子区域对象分布密度不均匀等特点.基于这些特点,提出了一种新的面向实时定位系统的区域索引机制,用以提高移动对象实时位置的区域查询的性能.该索引机制根据系统中对象的分布情况进行区域划分,利用R树对划分区域进行索引,并根据每个划分子区域对象的分布密度,用不同密度的网格索引位于该区域内部的对象的位置;同时进一步对提出的索引结构进行缓存感知的优化.实验结果表明,当对象分布不均时,该索引具有比R树和网格更优的区域查询性能,同时保持了良好的更新性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号