首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 221 毫秒
1.
目的 视频描述定位是视频理解领域一个重要且具有挑战性的任务,该任务需要根据一个自然语言描述的查询,从一段未修剪的视频中定位出文本描述的视频片段。由于语言模态与视频模态之间存在巨大的特征表示差异,因此如何构建出合适的视频—文本多模态特征表示,并准确高效地定位目标片段成为该任务的关键点和难点。针对上述问题,本文聚焦于构建视频—文本多模态特征的优化表示,提出使用视频中的运动信息去激励多模态特征表示中的运动语义信息,并以无候选框的方式实现视频描述定位。方法 基于自注意力的方法提取自然语言描述中的多个短语特征,并与视频特征进行跨模态融合,得到多个关注不同语义短语的多模态特征。为了优化多模态特征表示,分别从时序维度及特征通道两个方面进行建模: 1)在时序维度上使用跳连卷积,即一维时序卷积对运动信息的局部上下文进行建模,在时序维度上对齐语义短语与视频片段; 2)在特征通道上使用运动激励,通过计算时序相邻的多模态特征向量之间的差异,构建出响应运动信息的通道权重分布,从而激励多模态特征中表示运动信息的通道。本文关注不同语义短语的多模态特征融合,采用非局部神经网络(non-local neural network)建模不同语义短语之间的依赖关系,并采用时序注意力池化模块将多模态特征融合为一个特征向量,回归得到目标片段的开始与结束时刻。结果 在多个数据集上验证了本文方法的有效性。在Charades-STA数据集和ActivityNet Captions数据集上,模型的平均交并比(mean intersection over union,mIoU)分别达到了52.36%和42.97%,模型在两个数据集上的召回率R@1 (Recall@1)分别在交并比阈值为0.3、0.5和0.7时达到了73.79%、61.16%和52.36%以及60.54%、43.68%和25.43%。与LGI (local-global video-text interactions)和CPNet (contextual pyramid network)等方法相比,本文方法在性能上均有明显的提升。结论 本文在视频描述定位任务上提出了使用运动特征激励优化视频—文本多模态特征表示的方法,在多个数据集上的实验结果证明了运动激励下的特征能够更好地表征视频片段和语言查询的匹配信息。  相似文献   

2.
针对视频动作识别中的时空建模问题,在深度学习框架下提出基于融合时空特征的时序增强动作识别方法.首先对输入视频应用稀疏时序采样策略,适应视频时长变化,降低视频级别时序建模成本.在识别阶段计算相邻特征图间的时序差异,以差异计算结果增强特征级别的运动信息.最后,利用残差结构与时序增强结构的组合方式提升网络整体时空建模能力.实验表明,文中算法在UCF101、HMDB51数据集上取得较高准确率,并在实际工业操作动作识别场景下,以较小的网络规模达到较优的识别效果.  相似文献   

3.
采用SIFT-BoW和深度图像信息的中国手语识别研究   总被引:1,自引:0,他引:1  
杨全  彭进业 《计算机科学》2014,41(2):302-307
将深度图像信息引入手语识别的研究,提出了一种基于DI_CamShift(Depth Image CamShift)和SIFT-BoW(Scale Invariant Feature Transform-Bag of Words)的中国手语识别方法。该方法将Kinect作为视频采集设备,在获取手语彩色视频的同时得到其深度信息;首先计算深度图像中手语手势的主轴方向角和质心位置,通过调整搜索窗口对手势进行准确跟踪;然后使用基于深度积分图像的Ostu算法分割手势并提取其SIFT特征,进而构建SIFT-BoW作为手语特征并用SVM进行识别。实验结果表明,该方法单个手语字母最好识别率为99.87%,平均识别率96.21%。  相似文献   

4.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

5.
目的 针对高效3维视频编码标准(3D-HEVC)深度视频编码复杂度高和获取不准确的两个问题,现有算法单独进行处理,并没有进行联合优化。为了同时提升深度视频编码速度和编码效率,提出一种联合深度视频增强处理和帧内快速编码的方法。方法 首先,引入深度视频空域增强处理,消除深度视频中的虚假纹理信息,增强其空域相关性,为编码单元(CU)划分和预测模式选择提供进一步优化的空间;然后,针对增强处理过的深度视频的空域特征,利用纹理复杂度将CU进行分类,提前终止平坦CU的分割过程,减少了CU分割次数;最后,利用边缘强度对预测单元(PU)进行分类,跳过低边缘强度PU的深度模型模式。结果 实验结果表明,与原始3D-HEVC的算法相比,本文算法平均节省62.91%深度视频编码时间,并且在相同虚拟视点质量情况下节省4.63%的码率。与当前代表性的帧内低复杂度编码算法相比,本文算法深度视频编码时间进一步减少26.10%,相同虚拟视点质量情况下,编码码率节省5.20%。结论 该方法通过深度视频增强处理,保证了虚拟视点质量,提升了编码效率。对深度视频帧内编码过程中复杂度较高的CU划分和预测模式选择分别进行优化,减少了率失真代价计算次数,有效地降低了帧内编码复杂度。  相似文献   

6.
目的 针对当前视频情感判别方法大多仅依赖面部表情、而忽略了面部视频中潜藏的生理信号所包含的情感信息,本文提出一种基于面部表情和血容量脉冲(BVP)生理信号的双模态视频情感识别方法。方法 首先对视频进行预处理获取面部视频;然后对面部视频分别提取LBP-TOP和HOG-TOP两种时空表情特征,并利用视频颜色放大技术获取BVP生理信号,进而提取生理信号情感特征;接着将两种特征分别送入BP分类器训练分类模型;最后利用模糊积分进行决策层融合,得出情感识别结果。结果 在实验室自建面部视频情感库上进行实验,表情单模态和生理信号单模态的平均识别率分别为80%和63.75%,而融合后的情感识别结果为83.33%,高于融合前单一模态的情感识别精度,说明了本文融合双模态进行情感识别的有效性。结论 本文提出的双模态时空特征融合的情感识别方法更能充分地利用视频中的情感信息,有效增强了视频情感的分类性能,与类似的视频情感识别算法对比实验验证了本文方法的优越性。另外,基于模糊积分的决策层融合算法有效地降低了不可靠决策信息对融合的干扰,最终获得更优的识别精度。  相似文献   

7.
目的 相比静态表情图片,视频序列中蕴含更多的情感信息,视频序列中的具有明显表情的序列在特征提取与识别中具有关键作用,但是视频中同时存在的中性表情也可能会对模型参数的训练造成干扰,影响最终的判别。为了减少这种干扰带来的误差,本文对动态时间规整算法进行改进,提出一种滑动窗口动态时间规整算法(SWDTW)来自动选取视频中表情表现明显的图片序列;同时,为了解决人脸图像受环境光照因素影响较大和传统特征提取过程中存在过多人为干预的问题,构建一种基于深度卷积神经网络的人脸视频序列处理方法。方法 首先截取表情视频中人脸正面帧,用梯度方向直方图特征计算代价矩阵,并在代价矩阵上增加滑动窗口机制,计算所有滑动窗口的平均距离;然后通过平均距离最小值选取全局最优表情序列;最后采用深度卷积神经网络对规整后的人脸表情图像序列进行无监督学习和面部表情分类,统计视频序列图像分类概率和,进而得出视频序列的表情类别。结果 在CK+与MMI数据库上进行5次交叉实验,分别取得了92.54%和74.67%的平均识别率,与随机选取视频序列相比,分别提高了19.86%和22.24%;此外,与目前一些优秀的视频表情识别方法相比,也表现出了优越性。结论 本文提出的SWDTW不仅有效地实现了表情序列的选取,而且增强了卷积神经网络在视频面部表情分类中的鲁棒性,提高了视频人脸表情分析的自适应性度和识别率。  相似文献   

8.
为实现基于Kinect的手语识别,提出了一种利用有限状态机及动态时间规整(DTW)的动态手语识别方法。首先,利用Kinect技术得到人体深度图像和骨骼特征信息;然后利用手部分割算法得到手部深度图像,再选取识别正确率高的梯度方向直方图(HOG)特征算子来提取手部特征;最后加入有限状态机和DTW算法实现动态手语识别。实验结果表明:该方法能够实现对常用手语单词、句子的识别,识别准确率可达95%。  相似文献   

9.
目的 视频烟雾检测在火灾预警中起到重要作用,目前基于视频的烟雾检测方法主要利用结构化模型提取烟雾区域的静态和动态特征,在时间和空间上对烟雾信息作同等或相似处理,忽略了视频数据在时间线上的连续性和特征的非结构化关系。图卷积网络(GCN)与神经常微分方程(ODE)在非欧氏结构与连续模型处理上具有突出优势,因此将二者结合提出了一种基于视频流和连续时间域的图烟雾检测模型。方法 目前主流的视频烟雾检测模型仍以离散模型为基础,以规则形式提取数据特征,利用ODE网络构建连续时间模型,捕捉视频帧间的隐藏信息,将原本固定时间跨度的视频帧作为连续时间轴上的样本点,充分利用模型的预测功能,补充帧间丢失信息并对未来帧进行一定程度的模拟预测,生成视频帧的特征并交给图卷积网络对其重新建模,最后使用全监督和弱监督两种方法对特征进行分类。结果 分别在2个视频和4个图像数据集上进行训练与测试,并与最新的主流深度方法进行了比较,在KMU (Korea Maritime University)视频数据集中,相比于性能第2的模型,平均正样本正确率(ATPR值)提高了0.6%;在2个图像数据集中,相比于性能第2的模型,正确率分别提高了0.21%和0.06%,检测率分别提升了0.54%和0.28%,在视频单帧图像集上正确率高于第2名0.88%。同时也在Bilkent数据集中进行了对比实验,以验证连续隐态模型在烟雾动态和起烟点预测上的有效性,对比实验结果表明所提连续模型能够有效预测烟雾动态并推测烟雾起烟点位置。结论 提出的连续图卷积模型,综合了结构化与非结构化模型的优势,能够获得烟雾动态信息,有效推测烟雾起烟点位置,使烟雾检测结果更加准确。  相似文献   

10.
为提高双滤波器结构(Dual filter structure, DFS)一级滤波器W1k)的收敛速度,本文提出一种改进的Haar子带变换(Partial Haar transform, PHT)算法。新算法先对W1k)的输入信号进行PHT变换以压缩滤波器长度;然后通过优化收敛步长使后验误差最小化以提高收敛速度;最后通过分时保存、维护算法的归一化因子以降低算法计算复杂度。通过提高W1k)的收敛速度,新算法可以更少的迭代次数获得稳定的延时估计,从而提高DFS的整体收敛速度。以回声消除为应用背景对新算法进行实验仿真,实验结果表明新算法性能显著优于其他传统的自适应算法。  相似文献   

11.
12.
在传统的一阶隐马尔可夫模型(HMM1)中,状态序列中的每一个状态被假设只与前一个状态有关,这样虽然可以简单、有效地推导出模型的学习和识别算法,但也丢失了许多从上文传递下来的信息.因此,在传统一阶隐马尔可夫模型的基础上,为了解决手语识别困难、正确率低的问题,提出了一种基于二阶隐马尔可夫模型(HMM2)的连续手语识别方法....  相似文献   

13.
基于关键帧的多级分类手语识别研究*   总被引:7,自引:1,他引:6  
提出了一种基于关键帧识别的多级分类的手语识别方法,该方法采用HDR(多层判别回归)/DTW(动态时间规正)模板匹配多级分类方法。根据手语表达由多帧构成的特点,采用SIFT(尺度不变特征变换)算法定位获取手语词汇的关键帧,并提取其特征向量;根据手语词汇的关键帧采用HDR方法缩小搜索范围,然后采用DTW比较待识别的手语词特征与该范围内每一个手语词进行匹配比较,计算概率最大的为识别结果。这种方法在相同识别率的情况下比HMM识别方法速度提高近8.2%,解决了模板匹配法在大词汇量面前识别率快速下降的问题。  相似文献   

14.
Li  Ronghui  Meng  Lu 《Applied Intelligence》2022,52(13):14624-14638

Sign language recognition and translation can address the communication problem between hearing-impaired and general population, and can break the sign language boundariesy between different countries and different languages. Traditional sign language recognition and translation algorithms use Convolutional Neural Networks (CNNs) to extract spatial features and Recurrent Neural Networks (RNNs) to extract temporal features. However, these methods cannot model the complex spatiotemporal features of sign language. Moreover, RNN and its variant algorithms find it difficult to learn long-term dependencies. This paper proposes a novel and effective network based on Transformer and Graph Convolutional Network (GCN), which can be divided into three parts: a multi-view spatiotemporal embedding network (MSTEN), a continuous sign language recognition network (CSLRN), and a sign language translation network (SLTN). MSTEN can extract the spatiotemporal features of RGB data and skeleton data. CSLRN can recognize sign language glosses and obtain intermediate features from multi-view input sign data. SLTN can translate intermediate features into spoken sentences. The entire network was designed as end-to-end. Our method was tested on three public sign language datasets (SLR-100, RWTH, and CSL-daily) and the results demonstrated that our method achieved excellent performance on these datasets.

  相似文献   

15.

In this paper, we propose an efficient cascaded model for sign language recognition taking benefit from spatio-temporal hand-based information using deep learning approaches, especially Single Shot Detector (SSD), Convolutional Neural Network (CNN), and Long Short Term Memory (LSTM), from videos. Our simple yet efficient and accurate model includes two main parts: hand detection and sign recognition. Three types of spatial features, including hand features, Extra Spatial Hand Relation (ESHR) features, and Hand Pose (HP) features, have been fused in the model to feed to LSTM for temporal features extraction. We train SSD model for hand detection using some videos collected from five online sign dictionaries. Our model is evaluated on our proposed dataset (Rastgoo et al., Expert Syst Appl 150: 113336, 2020), including 10’000 sign videos for 100 Persian sign using 10 contributors in 10 different backgrounds, and isoGD dataset. Using the 5-fold cross-validation method, our model outperforms state-of-the-art alternatives in sign language recognition

  相似文献   

16.
Research in automatic analysis of sign language has largely focused on recognizing the lexical (or citation) form of sign gestures, as they appear in continuous signing, and developing algorithms that scale well to large vocabularies. However, successful recognition of lexical signs is not sufficient for a full understanding of sign language communication. Nonmanual signals and grammatical processes, which result in systematic variations in sign appearance, are integral aspects of this communication but have received comparatively little attention in the literature. In this survey, we examine data acquisition, feature extraction and classification methods employed for the analysis of sign language gestures. These are discussed with respect to issues such as modeling transitions between signs in continuous signing, modeling inflectional processes, signer independence, and adaptation. We further examine works that attempt to analyze nonmanual signals and discuss issues related to integrating these with (hand) sign gestures. We also discuss the overall progress toward a true test of sign recognition systems -dealing with natural signing by native signers. We suggest some future directions for this research and also point to contributions it can make to other fields of research. Web-based supplemental materials (appendices), which contain several illustrative examples and videos of signing, can be found at www.computer.org/publications/dlib.  相似文献   

17.
目的 旷场实验(open field test, OFT)是行为学与药理实验分析中常用的实验方法。为了对比测试组和参考组被测小鼠的行为特征差异,通常需要耗费大量精力对旷场实验数据进行处理和观测。由于旷场实验数据量大且较依赖观测人员的主观判断,导致对小鼠行为差异观测的精度较低且缺乏量化评价指标。为此,本文提出一种基于卷积神经网络(convolutional neural networks, CNN)的旷场实验视频分类方法,可基于量化特征对两组小鼠的行为差异自动分类。方法 从视频空域和时域中提取22维的小鼠运动行为特征,经过量化后生成特征矩阵,进而以矩阵拼接方式构造可学习的行为特征矩阵样本,利用不同结构卷积神经网络对提取的行为特征矩阵样本进行训练和分类,并分析网络结构对分类结果的影响,在实现两组小鼠分类的基础上,对不同维度小鼠行为特征对分类精度的重要性进行评价。结果 在真实旷场实验数据集上的实验分析表明,本文算法的分类准确率为99.25%。此外,由实验结果分析发现小鼠的大角度转向频次、停留区域与时间对小鼠分类的重要性高于其他维度特征。结论 提出的特征拼接矩阵学习方法能够准确识别两组小鼠旷场...  相似文献   

18.
生活中似是而非的手语表达语义含糊,欠规范的手势动作易混淆,同时从有限样本中难以获得充足特征用于训练手语识别模型,模型容易过拟合进而导致识别准确率较低.针对此问题,提出一种在有限样本条件下扩充欠规范手语识别容错特征的表示学习方法.该方法基于手语表达时人体骨架的运动信息,面向手语的时空关联性构建自编码器,从手语语料库中少量...  相似文献   

19.
目的 现有的车标识别方法尽管取得了不错的识别效果,但最终的识别率容易遇到瓶颈,很难得到提升。车标识别是智能交通系统中至关重要的一部分,识别率的微小提升也能带来巨大的社会价值。通过挖掘与分析车标识别中潜在的问题和难点,发现未能得到正确分类的图像大部分为模糊车标图像。针对车标图像中存在的成像模糊等情况,本文提出一种基于抗模糊特征提取的车标识别方法。方法 构建车标图像金字塔模型,分别提取图像的抗纹理模糊特征和抗边缘模糊特征。抗纹理模糊特征的提取使用局部量化的LPQ(local phase quantization)模式,可以增强原始特征的鲁棒性,抗边缘模糊特征的提取基于局部块弱梯度消除的HOG(histogram of oriented gradient)特征提取方法,可以在描述车标图像边缘梯度信息的同时,提升特征的抗模糊能力。最后利用CCA(canonical correlation analysis)方法进行两种抗模糊特征的融合并用于后续的降维与分类。结果 本文方法在多个数据集上均取得了很好的识别效果,在20幅训练样本下,本文方法在公开车标数据集HFUT-VL(vehicle logo dataset from Hefei University of Technology)上取得了99.04%的识别率,在本文构建的模糊车标数据集BVL(blurring vehicle logo dataset)上也取得了97.19%的识别率。而在难度较大的XMU(Xiamen University vehicle logo dataset)上,本文方法在100幅训练样本下也达到了96.87%的识别率,识别效果高于一些具有较好表现的车标识别方法,表现出很强的鲁棒性和抗模糊性。结论 本文方法提高了对成像质量欠缺的车标图像的识别能力,从而提升了整体识别效果,更符合实际应用中车标识别的需求。  相似文献   

20.
聋哑人如何与外界进行有效沟通一直是一个备受关注的难点问题。文中提出了一种基于惯性传感器融合控制算法的手语识别方案,旨在实现高效准确的实时手语识别。该融合控制算法采用反馈控制思想,对两种传统的姿态信息计算方法进行融合,减少了环境对传感器的影响,可以准确获取被测对象在瞬时状态下的姿态信息。该算法通过对自采的聋哑手语数据进行数据融合、数据预处理和特征提取等处理,利用支持向量机、K-近邻法和前馈神经网络分类器自适应模型集成的分类方法进行分类。结果显示,所提传感器融合控制算法有效地得出了实时姿态,该手语识别方案对30种聋哑拼音手语的识别准确率达到96.5%。所提方案将为聋哑人手语识别打下坚实的基础,并为传感器融合控制的相关研究提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号