期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

钟逸晟尹芳李嘉乾李传师侯耀辉《智能计算机与应用》2021,11(1):123-125

为了解决人脸识别的安全性问题,提高对恶意攻击人脸识别系统的安全防护,使人脸识别技术能够获得更广泛应用,本文提出了在人脸识别技术上融入一种基于深度神经网络的唇语识别技术的系统。与现有的唇语识别技术不同的是,该系统主要是识别用户的唇动习惯。运用本系统,用户在进行人脸识别的同时可按照检测方的提示,读出相应的内容,并在对用户的人脸进行验证的过程中,对用户通过唇动说出的内容分别实现唇动识别、比对,从而有效地提升人脸识别的安全性水平。实验结果表明,在故意针对人脸识别系统的攻击中,融入本技术的系统有更好的识别准确率。相似文献

2.

基于唇语识别的特征鉴别力分析 总被引：1，自引：0，他引：1

吕品轩王士林李生红《信息安全与通信保密》2008,1(5):60-62

唇语识别能够为语音识别提供辅助的视觉信息,大大提高了系统在噪声背景下的识别率。论文对基于唇语识别的特征辨别力进行了研究,选取有效的特征来表征嘴唇模型,所用嘴唇特征均来源于14点ASM模型,各种特征及组合采用HMM进行处理。实验表明,所采用的特征及特征组合能获得可观的识别率。相似文献

3.

基于自注意力序列模型的唇语识别研究

王媛媛《电子器件》2021,44(3)

唇语识别任务本身具有复杂性和多样性,为了应对这些挑战,提出了一种基于自注意力序列模型的唇语识别方法,并在带有上下文信息的单词级唇语识别任务中取得了很好的结果,模型在LRW数据集上的Top1准确率为84.79%,比主流的方法提高了2.75%的准确率。通过多方面详细的分析和比较,证明了自注意力机制能有效提高唇语识别的性能。相似文献

4.

基于色度分析的唇动特征提取与识别 总被引：6，自引：0，他引：6

下载免费PDF全文

姚鸿勋吕雅娟高文《电子学报》2002,30(2):168-172

本文提出了一种基于色度滤波的唇动特征提取与识别方法 ,它通过唇的色度滤波 ,得到增强的唇动图像 ,再利用可变模板 ,描述口型轮廓并提取特征参数 ,并用HMM模型进行唇运动序列图像识别 .该方法鲁棒性强 ,对光照没有苛刻的要求 ,且针对非特定人 ,适用于自然条件下的实用环境 ,解决了可变模板对目标边缘有较高分辨率的要求 ,使方法更实用化 .本文的实验是基于单纯的视觉信息 (没有声音信道的信息 )的唇动识别 ,不加语音信息 ,实验集合只限于单韵母 ,识别率可达 95 8% . 相似文献

5.

球撞击坑坑唇宽窄度定义及算法研究

张义芳杨文辉《电子世界》2012,(24):115-116

撞击坑是月球表面最重要的特征,对撞击坑正确的识别是必要的。我们提出一种"六位数字十级分级法",以0至9共十个数字量化描述撞击坑的特征。本文主要讨论坑唇宽窄度定义及算法的研究。首先对坑唇宽窄因子进行定性的描述和定量的定义,对撞击坑坑唇因子划分为0到9共10个级别。利用中值滤波、边缘提取等技术对影像进行预处理,通过Sobel算子获取精确边缘点并将其拟合成椭圆。得出坑唇边缘之后,截取坑唇宽和坑半径的长度,然后利用具体的等级划分算法,求出每个撞击坑坑唇宽窄因子的级别。目前已成功应用到数字月球平台。相似文献

6.

模糊语言模型在唇读系统中的应用

下载免费PDF全文

荣传振岳振军王渊杨宇《信号处理》2015,31(10):1301-1306

论文针对传统的统计语言模型所面临的数据稀疏和估计严苛性问题,提出基于模糊表示的n-元语法模型,并将其应用于唇语识别系统中,结合隐马尔科夫模型(Hidden Markov Model),建立了新的唇动识别模型—HFM(HMM and Fuzzy Language Model)。利用教育部语言文字应用研究所计算语言学研究室研制的语料库在线系统,制作了一个小型语料库,进行了句子识别实验。实验结果表明,HFM可使单音识别率最高提高6.5%,句子识别率最高提高22.7%,另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确度达68.7%。相似文献

7.

基于DT-CWT和PCA的唇部特征提取方法

梁亚玲杜明辉《电视技术》2011,35(3):93-96

针对单视觉唇读系统中唇部特征的提取问题,提出了基于双树复小波和PCA的唇部特征提取方法.利用双树复小波变换的近似平移不变性,通过将变换后的系数幅值重新排列,克服了感兴趣区域中唇部偏移的影响.与DCT相比.双树复小波变换既可反映输入信号的频域特性,又能反映其空间域特性,具有近似平移不变性.这些特性使得DT-CWT+PCA... 相似文献

8.

基于色度分析的唇动特性提取与识别

姚鸿勋高文等《电子学报》2002,30(2):168-172

本文提出了一种基于色度滤波的唇动特征提取与识别方法，它通过唇的色度滤波，得到增强的唇动图像，再利用可变模板，描述口型轮廓并提取特征参数，并用HMM模型进行唇运动序列图像识别。该方法鲁棒性强，对光照没有苛刻的要求，且针对非特定人，适用于自然条件下的实用环境，解决了可变模板对目标边缘有较高分辨率的要求，使方法更实用化。本文的实验是基于单纯的视觉信息（没有声音信道的信息）的唇动识别，不加语音信息，实验集合只限于单韵母，识别率可达95.8%。相似文献

9.

射频识别的发展历史

《电信快报》2019,(1)

作为物联网的关键支撑技术之一,RFID(射频识别)技术在读取效率、外形尺寸、穿透识别、存储容量、重复使用、感应距离和安全性等方面,都具有其他感知技术无可比拟的优势。文章介绍射频识别技术的先驱——金唇窃听器,描述罗伯特·沃森·瓦特将雷达从概念转化为现实的过程,分析RFID理论奠基之作——哈里·斯托克曼(Harry Stockman)所著论文《利用能量反射的方法进行通信》的主要内容,研究首台RFID原型设备——应答器装置和系统的工作原理。相似文献

10.

基于FPGA的手势识别系统设计与实现

陈振烁陈炯希《无线互联科技》2020,(12):34-36

随着信息技术的迅速发展,计算机和人类生活的关系越来越密切,人机交互技术变得更加重要,先开发出键盘作为主用户界面的文本处理工具,后发展成鼠标作为图形用户界面的主要工具,现在“以机器为中心”转移到“以人为中心”的趋势持续加热。模拟和类似人类感知传输信息类型的人机交互研究越来越多地受到关注,包括:人脸识别、唇读、头部运动跟踪、表情识别、凝视追踪识别和手势识别。文章在此基础上进行了基于FPGA的手势识别系统设计与实现。相似文献

11.

Audio visual interaction in multimedia

Tsuhan Chen Ram Rao 《Circuits and Devices Magazine, IEEE》1995,11(6):21-26

Audio-visual interaction is a very important issue in personal communication applications. The research and development of multimedia communication systems should account for this interaction. In this paper, we address a number of areas related to audio-visual interaction, such as automatic lipreading, speech-driven talking heads, and lip synchronization. In particular, we will discuss a new trend in video coding research: joint audio-video coding. Given that mouth movements are very difficult to code because of its rapid, complex, and non-rigid motion (so conventional block-based motion-compensation methods fail), we will explain how having extra help from the acoustic signal can enable us to code the mouth movements more efficiently 相似文献

12.

Audio-to-visual conversion for multimedia communication

Rao R.R. Tsuhan Chen Mersereau R.M. 《Industrial Electronics, IEEE Transactions on》1998,45(1):15-22

Although humans rely primarily on hearing to process speech, they can also extract a great deal of information with their eyes through lipreading. This skill becomes extremely important when the acoustic signal is degraded by noise. It would, therefore, be beneficial to find methods to reinforce acoustic speech with a synthesized visual signal for high noise environments. This paper addresses the interaction between acoustic speech and visible speech. Algorithms for converting audible speech into visible speech are examined, and applications which can utilize this conversion process are presented. Our results demonstrate that it is possible to animate a natural-looking talking head using acoustic speech as an input 相似文献

13.

基于循环区域关注和视频帧关注的视频行为识别网络设计

下载免费PDF全文

桑海峰赵子裕何大阔《电子学报》2020,48(6):1052-1061

视频帧中复杂的环境背景、照明条件等与行为无关的视觉信息给行为空间特征带来了大量的冗余和噪声,一定程度上影响了行为识别的准确性.针对这一点,本文提出了一种循环区域关注单元以捕捉空间特征中与行为相关的区域视觉信息,并根据视频的时序特性又提出了循环区域关注模型.其次,本文又提出了一种能够突显整段行为视频序列中较为重要帧的视频帧关注模型,以减少异类行为视频序列间相似的前后关联给识别带来的干扰.最后,提出了一个能够端到端训练的网络模型：基于循环区域关注和视频帧关注的视频行为识别网络（Recurrent Region Attention and Video Frame Attention based video action recognition Network,RFANet）.在两个视频行为识别基准UCF101数据集和HMDB51数据集上的实验表明,本文提出的端到端网络RFANet能够可靠地识别出视频中行为的所属类别.受双流结构启发,本文构建了双模态RFANet网络.在相同的训练环境下,双模态RFANet网络在两个数据集上达到了最优的性能. 相似文献

14.

汉语第零声的声调特征研究

马占武王炳锡《电声技术》2005,(7):45-47

汉语普通话是一种带声调的语言,声调信息在汉语连续语音识别中具有非常重要的作用。传统的连续语音声调识别算法一般只研究阴平、阳平、上声、去声的声调特征,却很少讨论第零声（即轻声）的声调特征。利用归一化自相关函数法研究了轻声音节基频轨迹的特点,并给出了可用于识别轻声音节的一些基本声调特征。相似文献

15.

3D人耳识别的研究进展

桑基韬王巍林蔚《信息技术与信息化》2007,(3):63-67

人耳识别是生物识别领域的一项新技术,由于其令人欣喜的特性,如普遍性、唯一性和稳定性等,已经受到了越来越多研究者的关注。但在3D人耳识别方面,各种理论和方法都不太完善、还处于初步阶段。文中首先介绍一般的人耳识别过程,然后从2D过渡到3D人耳识别,着重介绍一下现在3D人耳识别领域的一些技术,最后给出对此领域前景的展望相似文献

16.

一种多尺度前向注意力模型的语音识别方法

下载免费PDF全文

唐海桃薛嘉宾韩纪庆《电子学报》2020,48(7):1255-1260

注意力模型是当前语音识别中的主流模型，然而其存在一个缺点，即当前时刻的注意力模型可能产生异常得分.为此，本文首先提出前向注意力模型，其采用上一时刻正常注意力得分平滑当前时刻异常得分.接着通过对上一时刻的注意力得分添加约束因子来对前向注意力模型进行优化，达到自适应平滑的目的.最后，在优化模型基础上提出多尺度前向注意力模型，其通过引入多尺度模型来对不同等级的语音基元进行建模，进而将所得到的不同等级目标向量进行融合，以达到解决注意力得分异常值的目的.采用SwitchBoard作为训练集，Hub5'00作为测试集进行实验，相比于基线系统，多尺度前向注意力模型的词错误率（Word Error Rate，WER）相对降低14.28%. 相似文献

17.

基于时空注意力网络的中国手语识别

罗元李丹张毅《半导体光电》2020,41(3):414-419

手语识别广泛应用于聋哑人与正常人之间的交流中。针对手语识别任务中时空特征提取不充分而导致识别率低的问题,提出了一种新颖的基于时空注意力的手语识别模型。首先提出了基于残差3D卷积网络(Residual 3D Convolutional Neural Network,Res3DCNN)的空间注意力模块,用来自动关注空间中的显著区域；随后提出了基于卷积长短时记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)的时间注意力模块,用来衡量视频帧的重要性。所提算法的关键在于在空间中关注显著区域,并且在时间上自动选择关键帧。最后,在CSL手语数据集上验证了算法的有效性。相似文献

18.

Peripheral vision lipreading aid

Ebrahimi D. Kunov H. 《IEEE transactions on bio-medical engineering》1991,38(10):944-952

Lipreading provides a limited amount of information about speech signals to profoundly deaf people. Visual displays using peripheral vision as an alternative sensory modality can provide supplementary speech information. The utility of a cosmetically acceptable peripheral vision display was explored. A pair of eyeglasses with a commercially available two-dimensional red LED array (5 x 7), and its associated electronics was developed. The display is visible only to the wearer, and is located in the temporal field and the horizontal meridian of the right eye. Selected speech features were encoded as visual patterns for presentation to the lipreader. These features of the speech signal (the fundamental frequency of the speech, high-frequency energy, and low-passed speech signal or total energy envelope) were presented with the objective of providing information about voicing and plosion/frication. Experiments demonstrate the capability of the peripheral display in conveying speech information. Presenting vowel-consonant-vowel syllables, the performance was in excess of 76% with aided lipreading as compared to 41% by lipreading only. 相似文献

19.

基于多模态迭代及修正的文本识别算法

强观臣张丽真杨茜熊炜李利荣《光电子．激光》2024,35(5):525-535

针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。相似文献

20.

Facial feature extraction by a cascade of model-based algorithms 总被引：1，自引：0，他引：1

Fei Zuo Peter H.N. de With 《Signal Processing: Image Communication》2008,23(3):194-211

In this paper, we propose a cascaded facial feature-extraction framework employing a set of model-based algorithms. In this framework, the algorithms are arranged with increasing model flexibility and extraction accuracy, such that the cascaded algorithm can have an optimal performance in both robustness and extraction accuracy. Especially, we propose a set of guidelines to analyze and jointly optimize the performance relation between the constituting algorithms, such that the constructed cascade gives the best overall performance. Afterwards, we present an implementation of the cascaded framework employing three algorithms, namely, sparse-graph search, component-based texture fitting and component-based direct fitting. Special attention is paid on the search and optimization of the model parameters of each algorithm, such that the overall extraction performance is greatly improved with respect to both reliability and accuracy. 相似文献