首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 159 毫秒
1.
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit, GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低.  相似文献   

2.
张晓冰  龚海刚  杨帆  戴锡笠 《软件学报》2020,31(6):1747-1760
近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14 975个样本.此外,额外采集了269 558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的Ch Lip Net可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.  相似文献   

3.
针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3DCNN,TCN)。首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network, TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的“同型异义”视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率。在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了2.17%至23.99%。  相似文献   

4.
现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多.而唇部的视觉信息在视觉语音识别和唇语识别中起着关键作用,尤其在音频被破坏或无音频信息时,唇部视觉信息尤为重要.如何获取准确有效的唇部视觉特征是当前唇语识别的难点工作之一.从唇语数据集、传统视觉特征提取方法、视觉特征提取的深度学习方法三方面综述了唇语识别方向近年来的最新研究工作:首先,总结了唇语识别数据集,将唇语数据集分为正视图和多视图两种类型,并总结整理两类数据集的特点、局限性和下载地址;其次,从像素点、形状和混合特征的角度介绍了唇部视觉特征提取的传统方法,重点介绍各方法的基本思想、网络结构和特点;然后,介绍了唇部视觉特征提取的深度学习方法,重点介绍2D CNN、3D CNN、2D CNN与3D CNN相结合、其他神经网络四种深度学习方法的网络结构和优缺点,并比较了这些方法在公开数据集上的性能表现;最后,对唇部视觉特征提取方法所面临的挑战和未来研究趋势进行了展望.  相似文献   

5.
口型识别是唇语识别的重要环节,由于中文相似口型较多,口型识别率往往不高。针对这一问题,提出一种基于语义约束的口型序列识别方法。该方法针对口型序列,利用语义约束和序列组合,分别对单一口型不易区分的情况和词语间隔不明显的情况进行处理,实现音节序列的识别,从而完成信息的转换。通过实例对该方法进行了实验验证,表明该方法技术可行,并基于此提出一种基于口型序列的唇语中文输入方法。  相似文献   

6.
为了解决唇语识别中唇部特征提取和时序关系识别存在的问题,提出了一种双向长短时记忆网络(BiLSTM)和注意力机制(Attention Mechanism)相结合的深度学习模型。首先将唇部20个关键点得到的唇部不同位置的高度和宽度作为唇部的特征,使用BiLSTM对唇部特征序列进行时序编码,然后利用注意力机制来发掘不同时刻唇部时序特征对于整体唇语识别的不同权重,最后利用Softmax进行分类。在公开的唇语识别数据集GRID和MIRACL-VC上与传统的唇语识别模型进行实验对比。在GRID数据集上准确率至少提高了13.4%,在MIRACL-VC单词数据集上准确率至少提高了15.3%,短语数据集上准确率至少提高了9.2%。同时还与其他编码模型进行了实验对比,实验结果表明该模型能有效地提高唇语识别的准确率。  相似文献   

7.
基于句子级的唇语识别技术   总被引:1,自引:0,他引:1  
唇读是通过口型变化判断话者内容,唇读研究属于人机交互范畴。识别在生物界大体包括两个方面,人物身份的鉴别和基本内容的认知。现阶段唇读的研究主要是基于说话者内容的识别,对采集的话者唇动图像序列进行有效的预处理(包括视频切割,图像增强,唇边缘定位),预处理后如何选择合适的特征是解决识别准确性的关键问题,在唇读识别研究中采用了基于口型变化序列的形状特征和图象特征进行实验。最后采用半连续hmm模型完成计算机唇语识别。  相似文献   

8.
唇语识别是将单个说话人嘴唇运动的无声视频翻译成文字的一种技术.由于嘴唇运动幅度较小,现有唇语识别方法的特征区分能力和泛化能力都较差.针对该问题,文中分别从时间、空间和通道三个维度研究唇语视觉特征的提纯问题,提出基于多重视觉注意力的唇语识别方法(Lipreading Based on Multiple Visual Attention Network, LipMVA).首先利用通道注意力自适应校准通道级别的特征,减轻无意义通道的干扰.然后使用两种粒度不同的时空注意力,抑制不重要的像素或帧的影响.CMLR、GRID数据集上的实验表明LipMVA可降低识别错误率,由此验证方法的有效性.  相似文献   

9.
针对唇语识别模型的识别率较低和计算量较大的问题,提出一种同类自知识蒸馏的轻量化唇语识别模型(HSKDLR)。首先,提出关注唇部图像空间特征的S-SE注意力模块,用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块,以提升唇语识别模型的准确率;其次,基于i-Ghost Bottleneck构建唇语识别模型,该模型通过优化瓶颈结构的组合方式降低模型计算量;然后,为提升模型准确率,减少模型运行时间,提出同类自知识蒸馏(HSKD)的模型训练方法;最后,使用同类自知识蒸馏方法训练唇语识别模型,并检验其识别性能。实验结果表明:与其他方法相比,HSKDLR具有更高的识别准确率和更低的计算量,在LRW数据集上的准确率达87.3%,浮点数运算量低至2.564 GFLOPs,参数量低至3.872 3×107;同类自知识蒸馏可被应用于大多数唇语识别模型,帮助其有效提升识别准确率,减少训练时间。  相似文献   

10.
将现有唇读识别常用的双唇线口型模板简化优化,创建了单唇线即内唇口型模板,并结合内唇的灰度特征,利用相关函数的相似性匹配实现唇语识别.该方法在准确有效提取特征的同时降低了运算复杂度,实验数据为单纯的视觉信息,集合为单个发音时,识别率可达90%.实验证明新的尝试具可行性.  相似文献   

11.
音字转换中分层解码模型的研究与改进   总被引:1,自引:0,他引:1  
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。  相似文献   

12.
In the commodity search system based on Solr full-text search technology, this paper uses the third-party Chinese word breaker on the Chinese search information entered by the user segmentation, inquiry commodity index database based on segmenta- tion results, but it ignores the case which the user enters pinyin to search. By analyzing the grammatical structure of Chinese pinyin, the pinyin word segmentation methods are designed, using a proprietary lexicon of e-commerce to construct a Chinese pinyin li- brary, and implementing a commodity search system based onAjax pinyin input prompts to improve the deficiencies in the search in- put method.  相似文献   

13.
14.
基于视频三音子的汉语双模态语料库的建立   总被引:2,自引:0,他引:2  
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。  相似文献   

15.
介绍了一种基于HMM的汉语整句拼音输入转换为整句汉字的输入法,提出了引入语言知识后的一种音字选择方法.并给出了采用N元拼音文法时的选择模型.实验表明,该方法取得了较好的效果.  相似文献   

16.
为净化网络环境,需要对网络信息进行审查。针对网络信息中所包含的敏感词,尤其是中文敏感词变形体的识别成为了一个迫切需要解决的问题。通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对词的拼音、词的简称和词的拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法(SPGR)、字符串的简称识别算法(SNR)和基于KMP的汉字拆分识别算法(WS-KMP),有效提高了敏感词审查的准确率和效率。实验结果表明,该方法在识别中文敏感词变形体的时候有较高的查全率和查准率。  相似文献   

17.
在嵌入式系统中实现拼音输入法可以采用数组和有序树两种方法,其中有序数方法更具有优势。本文采用改进的Trie树构造拼音生成树,在uClinux上实现了具有联想功能的汉字输入法。  相似文献   

18.
唇读研究进展与展望   总被引:1,自引:0,他引:1  
陈小鼎  盛常冲  匡纲要  刘丽 《自动化学报》2020,46(11):2275-2301
唇读, 也称视觉语言识别, 旨在通过说话者嘴唇运动的视觉信息, 解码出其所说文本内容. 唇读是计算机视觉和模式识别领域的一个重要问题, 在公共安防、医疗、国防军事和影视娱乐等领域有着广泛的应用价值. 近年来, 深度学习技术极大地推动了唇读研究进展. 本文首先阐述了唇读研究的内容和意义, 并深入剖析了唇读研究面临的难点与挑战; 然后介绍了目前唇读研究的现状与发展水平, 对近期主流唇读方法进行了梳理、归类和评述, 包括传统方法和近期的基于深度学习的方法; 最后, 探讨唇读研究潜在的问题和可能的研究方向. 以期引起大家对唇读问题的关注与兴趣, 并推动与此相关问题的研究进展.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号