首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
人体运动捕捉中复杂的时空结构信息使其在数据驱动角色动画、序列拼接和风格融合等运动生成研究领域极具挑战性.聚焦于深度学习在计算机图形学中所获得的巨大成功,首先从模型结构和理论优化2个方面对运动捕捉数据中人体骨骼动画生成所使用的4类生成式深度学习模型(受限玻尔兹曼机、循环神经网络、卷积神经网络、深度强化学习)及其混合学习方法进行全面概括和总结;接着探讨这些典型深度学习模型对人体骨骼运动数据时空特征提取的能力,并量化对比其在不同生成任务中的实验效果;最后深入分析各种深度模型的优势及亟待解决的难题,并对新型深度学习模型在运动生成中的发展趋势进行了展望.  相似文献   

2.
针对动态突变行为原始信息量较少、行为不易区分以及浅层结构分类算法分类正确率较低的问题,提出一种改进的基于加速度数据特征融合的深信度网络驾驶行为识别算法。采用从手机传感器中获取的实时三轴加速度数据,进行预处理后利用端点检测算法确定行为切换点,通过滑动窗实时提取时间序列信息并计算序列片段的时频域特征,选取有效特征后,融合原始行为信息与特征建立完整时间序列段作为受限玻尔兹曼机的输入端,隐层转换为网络可识别的伯努力分布方式,优化预设参数的多隐层受限玻尔兹曼机对输入端信息的特征进行提取,最终通过DBN(Deep Belief Network,深信度网络)实现驾驶行为的识别。实验结果表明,改进的滑动窗特征融合的深信度网络驾驶行为识别算法整体识别率为85.2%,能有效进行驾驶行为的识别。  相似文献   

3.
彭淑娟  柳欣 《计算机科学》2013,40(8):303-308
运动捕获数据行为分割的目的是将长序列数据划分为单个运动类型短片段的序列集合,使集合中每个片段具有特定的运动语义。针对相邻运动片段的过渡区间存在部分运动帧序列的语义归属歧义,提出了一种结合 双特征的运动捕获数据行为分割方法。该方法首先从原始数据中提取角度和距离两组不同类型的运动特征集,并分别基于PPCA方法构建规格化的综合特征函数;然后利用子区间标准差阈值限定方法分别对综合特征函数进行粗分割,从而将运动捕获数据划分为若干具有独立语义特性的可信区域与待定区域;最后采用高斯混合模型方法判别待定区域的具体归属,从而得到最终的分割结果。实验结果表明,该算法能对模糊歧义区域进行细分割,具有较好的分割效果。  相似文献   

4.
针对已有的运动捕获数据关键帧提取方法常常忽略运动数据局部拓扑结构特性问题,提出了一种基于拉普拉斯分值LS特征选择的人体运动数据关键帧提取方法。该方法首先从原始运动数据集中提取两种代表性的特征向量并对其归一化,利用LS算法对组合后的特征向量进行打分和特征权重学习,以获取能够判别性揭示局部运动信息的特征子向量;其次,通过构建综合特征函数并基于极值判别原理,得到初始候选关键帧序列;最后,根据时间阈值约束和姿态相似判别策略,利用改进的k-means算法对候选帧进行聚类筛选,以达到去除冗余关键帧的目的,从而得到最终关键帧序列集合。仿真实验结果表明,该方法提取的关键帧序列具有典型性,能较好地对整体运动捕获数据进行视觉概括。  相似文献   

5.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

6.
针对现阶段语义分割网络存在的空间和通道特征不匹配、小目标物体像素丢失等问题,设计了一种基于空间特征提取和注意力机制的双路径语义分割算法。空间信息路径利用四倍下采样来保留高分辨率特征,并引入空间特征提取模块融合多尺度空间信息,加强网络对小目标物体的识别能力;采用一条结合双阶通道注意力的语义上下文路径提取判别特征,使深层特征能够指导浅层特征捕捉更精确的语义信息,从而降低精度损失。在CamVid和Aeroscapes数据集上验证该算法,平均交并比分别可达70.5%和51.8%,相比于当前主流的双路径语义分割模型有所提升,结果验证了所提算法的有效性。  相似文献   

7.
目前,用于描述视频中人群的运动信息大多是基于光流的速度描述子。事实上,加速度蕴含丰富的运动信息,能够提供速度描述子在描述复杂运动模式时缺失的信息,以更好地表征复杂的运动模式。文中研究了一种运动特征描述子,使用受限玻尔兹曼机模型进行异常行为检测。首先,提取视频中的光流场信息,计算帧间加速度光流;然后,对一个时空块中的加速度信息进行直方图统计,将若干帧的所有时空块直方图特征进行拼接,从而获得加速度描述子;最后,在仅包含正常行为的训练集上建立受限玻尔兹曼机模型,在测试阶段根据测试视频重建特征与原始特征的误差大小进行异常检测。实验表明,所提出的加速度描述子结合速度描述子,在UMN数据集与UCF-Web数据集上,ROC曲线下的面积分别达到了0.984与0.958,相较于其他算法,所提方法取得了更高的异常行为检测准确率。  相似文献   

8.
基于RNN-RBM语言模型的语音识别研究   总被引:1,自引:0,他引:1  
近年来深度学习兴起,其在语言模型领域有着不错的成效,如受限玻尔兹曼机(restricted Boltzmann machine,RBM)语言模型等.不同于N-gram语言模型,这些根植于神经网络的语言模型可以将词序列映射到连续空间来评估下一词出现的概率,以解决数据稀疏的问题.此外,也有学者使用递归神经网络来建构语言模型,期望由递归的方式充分利用所有上文信息来预测下一词,进而有效处理长距离语言约束.根据递归受限玻尔兹曼机神经网络(recurrent neural network-restricted Boltzmann machine,RNN-RBM)的基础来捕捉长距离信息;另外,也探讨了根据语言中语句的特性来动态地调整语言模型.实验结果显示,使用RNN-RBM语言模型对于大词汇连续语音识别的效能有相当程度的提升.  相似文献   

9.
为了充分利用电力信息系统中的异构数据源挖掘出电网中存在的安全威胁, 本文提出了基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的多源日志综合特征提取方法, 首先采用受限玻尔兹曼机神经网络对各类日志信息进行规范化编码, 随后采用对比散度快速学习方法优化网络权值, 利用随机梯度上升法最大化对数似然函数对RBM模型进行训练学习, 通过对规范化编码后的日志信息进行处理, 实现了数据降维并得到融合后的综合特征, 有效解决了日志数据异构性带来的问题. 通过在电力信息系统中搭建大数据威胁预警监测实验环境, 并进行了安全日志综合特征提取及算法验证, 实验结果表明, 本文所提出的基于RBM的多源日志综合特征提取方法能用于聚类分析、异常检测等各类安全分析, 在提取电力信息系统中日志特征时有较高的准确率, 进而提高了网络安全态势预测的速度和预测精度.  相似文献   

10.
人机交互中视觉语言的灰度轮廓权向量差分唇形特征模型   总被引:1,自引:0,他引:1  
该文结合函数变形模型和灰度轮廓向量模型的特点,给出了一种维数少、有效性高的视觉语言特征—灰度轮廓权向量差分唇形特征模型。该特征融合了嘴唇图像的形状变化信息和灰度信息,能够较完善地描述嘴唇的变化。同时,得出了一种新的视觉特征提取算法。仿真结果表明,该算法与传统的函数变形模型相比,总的特征提取准确率提高了5个百分点,每个发音图像序列特征提取的准确率提高了1.6至9个百分点,每帧图像的特征提取时间由4.6495秒下降到0.4455秒。对“1”至“10”数字发音的嘴唇图像序列进行识别,获得了较高的识别率。因此,灰度轮廓权向量差分唇形特征是一种精炼、描述性强、适合于唇读识别的视觉语言特征,该算法能自动地完成模型的训练和视觉特征的提取,是一种有效的特征提取算法。  相似文献   

11.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

12.
针对动作捕捉数据高维度、检索耗时问题,提出一种基于哈希学习的高效编码和快速检索算法.该算法对动作捕捉库中的每个运动序列,顺序将固定帧数的帧序列作为滑动窗口,以滑动窗口为单位抽取特征,将一个帧序列其所有滑动窗口特征作为其特征表达,通过哈希学习方法对每个序列进行哈希编码;检索时采用分层检索策略,对待检索序列提取其关键帧,用哈希编码方法检索库中与关键帧相似的若干窗口帧,并通过均匀帧采样计算帧间误差进一步筛选包含相似窗口帧的序列段,获得数据库中与待检索序列相似的若干相似序列段.实验结果表明,文中算法可实现从大规模动作捕捉数据库中快速检索相似序列段.  相似文献   

13.
基于多频域LBP-TOP的人脸表情识别   总被引:1,自引:1,他引:0       下载免费PDF全文
孔健  詹永照 《计算机工程》2010,36(15):176-178
针对人脸表情时空域特征信息的有效提取问题,提出一种多频域LBP-TOP与最大间隔球形支持向量机相结合的人脸表情识别算法。采用小波分解增强序列各帧的图像信息,对同频率的子图像序列提取分块改进的LBP-TOP特征,采用最大间隔球形支持向量机进行样本的训练及识别。实验结果证明,该方法能有效提取运动的表情特征,识别率高,同时符合实时性要求。  相似文献   

14.
偏最小二乘法内部采用主成分分析,不能充分表达数据的非线性特征,对非线性数据的预测精度较低。为此,提出一种融合受限玻尔兹曼机与偏最小二乘的分析预测方法。该方法利用受限玻尔兹曼机对特征空间提取非线性结构,将提取的特征成分取代偏最小二乘中的成分,从而得到适应非线性的模型。实验结果表明,融合受限玻尔兹曼机与偏最小二乘法的分析方法能较好地反映数据的非线性特征。  相似文献   

15.
在分布式信息物理融合系统(CPS)中,由于各子系统间的强耦合性,常常会因为故障的传播导致整个系统的物理故障和网络异常。针对这一问题,提出了一种新的基于数据驱动的框架用于检测系统范围内的异常。该框架是用于发现和表征CPS各个子系统间相互作用的一种基于符号动力学的时空特征提取方案,并将提取的特征通过受限玻尔兹曼机(RBM)学习到一个系统级的模型。实验结果表明,该框架可以通过一个图模型捕获CPS的多模态,同时可用于异常检测。  相似文献   

16.
针对现有视频关键帧提取算法对运动类视频中运动特征提取不准导致的漏检和误检问题,提出一种融合多路特征和注意力机制的强化学习关键帧提取算法。该算法首先通过人体姿态识别算法对视频序列进行人体骨骼关节点提取;然后使用S-GCN和ResNet50网络分别提取视频序列中的运动特征和静态特征,并将两者进行加权融合;最后应用注意力机制对特征序列进行视频帧重要性计算,并利用强化学习进行关键帧的提取和优化。实验结果表明,该算法能较好地解决运动类视频在关键帧提取中出现的漏误检问题,在检测含有关键性动作的视频帧时表现较好,算法准确率高、稳定性强。  相似文献   

17.
一般的学习模型都是基于一个假设的随机分布,然后通过训练真实数据来拟合出模型。网络模型复杂并且数据集规模也不小,这种方法简直就是凭借天生蛮力解决问题。Goodfellow认为正确使用数据的方式,是先对数据集的特征信息有insight之后,再干活。无监督学习是当下较为流行的话题,但也是困难较为繁多的话题。目前无监督学习可以分成以下两类,分别是确定型的自编码方法以及概率型的受限波尔兹曼机,其目标主要是使受限玻尔兹曼机达到稳定状态时原数据出现的概率最大。如何更快速更有效地地搭建模型以及如何做实验并有效地获得相关的实验结论是人们讨论的重点。在研究中,在判别模型中增加正则化,用卷积层代替池化层,在生成模型中输出层使用tanh激活函数激活,这样使得最终运算的准确率和损失率大大下降,并减少了冗余成分。  相似文献   

18.
目的 视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法 首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets (3D convolutional neural networks)结构。然后,采用BiConvLSTM (bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果 为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论 通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。  相似文献   

19.
基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型(Language model,LM)数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布.语言模型的数据增强问题实质上是离散序列的生成问题.当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型.为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化,此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛搜索算法对生成序列的中间状态进行评价.语音识别多候选重估实验表明,在有限文本数据条件下,随着训练数据量的增加,本文提出的方法可以进一步降低识别字错误率(Character error rate,CER),且始终优于基于MLE的数据增强方法.当训练数据达到6M词规模时,本文提出的方法使THCHS30数据集的CER相对基线系统下降5.0%,AISHELL数据集的CER相对下降7.1%.  相似文献   

20.
郭文  李冬  袁飞 《图学学报》2022,43(6):1124-1133
在低质量点云人脸数据集上,判别性特征的提取和模型对噪声的鲁棒性是解决点云人脸识别问题的关键。针对现有轻量点云人脸识别算法不能充分提取判别性特征和数据集中存在大量噪声而影响模型训练的问题,设计轻量高效的网络模型,提出了基于多尺度注意力融合和抗噪声的自适应损失函数的点云人脸识别算法。首先通过不同卷积模块获得不同感受野大小的特征图。然后进行多尺度的注意力特征提取,并使用高层的注意力权重来引导低层注意力权重的生成,最后进行通道融合得到多尺度融合的特征,提升了模型捕获人脸细节特征的能力。其次,根据低质量点云人脸图像的噪声信息特点,设计了一种新颖的抗噪声的自适应损失函数(anti-noise adaptiveloss),以应对数据集大量噪声对模型训练过程中可能造成的负面影响,提升模型的鲁棒性和泛化能力。在开源数据集Lock3DFace和本文提出的KinectFaces数据集上的实验结果表明,与当前的主流算法相比该算法模型在低质量点云人脸识别任务中具有更好的识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号