首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 170 毫秒
1.
针对视频序列中表情强度不一致,长短时记忆网络(LSTM)难以有效地提取其特征的问题,提出一种基于面部运动单元和时序注意力的视频表情识别方法.首先在卷积LSTM(ConvLSTM)的基础上引入时序注意力模块,对视频序列进行时序建模,在降低维度的同时保留丰富人脸图像特征信息;其次提出基于面部动作单元的人脸图像分割规则,解决面部表情活跃区域难以界定的问题;最后在模型中嵌入标签修正模块,解决自然条件下数据集中样本不确定性的问题.在MMI, Oulu-CASIA和AFEW数据集上的实验结果表明,所提方法的模型参数量低于已公开的主流模型,且在MMI数据集上的平均识别准确率达到87.22%,高于目前主流方法,在整体效果上优于目前具有代表性的方法.  相似文献   

2.
针对视频动作预测领域的算法在不同预测时间预测效果不稳定的缺陷,提出一种基于自注意力机制的多模态LSTM的动作预测模型。综合考虑3种视频特征,采用位置编码及自注意力机制编码3种模态特征,得到具有丰富语义的高层特征;使用LSTM结构总结视频的历史信息,产生不同预测时间的动作预测结果;完成多模态特征的子网络的训练后,采取多模型融合策略将子网络的预测输出进行融合。实验结果表明,在EPIC-Kitchens数据集上的预测精度稳定在38%,在EGTEAGaze+数据集上的预测精度稳定在77%。  相似文献   

3.
玄英律  万源  陈嘉慧 《计算机应用》2022,42(8):2343-2352
时间序列的多尺度特征包含丰富的类别信息,且这些信息对分类具有不同的重要程度,然而现有的单变量时间序列分类模型通常以固定大小的卷积核提取序列特征,导致不能有效地获取并聚焦重要的多尺度特征。针对上述问题,提出一种基于多尺度卷积和注意力机制(MCA)的长短时记忆(LSTM)模型(MCA-LSTM),它能够关注并融合重要的多尺度特征,从而实现更准确的分类。其中,LSTM使用记忆细胞和门机制控制序列信息的传递,并充分提取时间序列的相关性信息;多尺度卷积模块(MCM)使用具有不同卷积核的卷积神经网络(CNN)提取序列的多尺度特征;注意力模块(AM)融合通道信息获取特征的重要性并分配注意力权重,从而使网络关注重要的时间序列特征。在UCR档案的65个单变量时间序列数据集上的实验结果表明,对比当前最先进的基于深度学习的时间序列分类模型:USRL-FordA(Unsupervised Scalable Representation Learning-FordA)、USRL-Combined (1-NN) (Unsupervised Scalable Representation Learning-Combined (1-Nearest Neighbor)) OS-CNN(Omni-Scale Convolutional Neural Network)、Inception-Time和RTFN(Robust Temporal Feature Network for time series classification),MCA-LSTM在平均错误率(ME)上分别降低了7.48、9.92、2.43、2.09和0.82个百分点,并取得了最高的算术平均排名(AMR)和几何平均排名(GMR),分别为2.14和3.23,这些充分体现了MCA-LSTM模型在单变量时间序列分类中的有效性。  相似文献   

4.
研究利用美国宇航局获取的2000年1月至2021年8月共260个月份的模拟网格数据,提取得到美国德克萨斯州的休斯顿地区地表温度时间序列。在长短期记忆网络(LSTM)结构的基础上,通过深层次构建LSTM网络结构得到深度长短期记忆网络的模型结构,对得到的地表温度数据进行预测。同时,利用遗传算法优化选取最优网络层数,预测时间步长等超参数值。深度LSTM网络模型的实验结果表明,深层LSTM误差均低于百分之一,且比单层模型性能表现优异。  相似文献   

5.
根据股价存在的高频性、长记忆性及不确定性,文章给出了基于注意力机制的卷积神经网络一长短期记忆网络股票价格序列预测方法。首先使用CNN来对数据序列进行卷积操作,以提取其特征分量。然后,利用长短期记忆网络(LSTM)对所抽取出的特征分量做序列预测。最终,注意力模块通过神经网络来自动化拟合权重分配,并对LSTM各个时间节点的隐含层输出向量与对应的权重相乘并求和,为重要的特征分量赋予更大的权重,以此作为模型最终的特征表达。  相似文献   

6.
针对传统人体摔倒检测方法误检率高、无法有效结合时序特征等问题,提出一种新的人体轮廓关键点提取方法,并将该方法和LSTM网络相结合构建一种新的摔倒检测模型。该模型对视频中的人体进行轮廓检测,选取轮廓关键点坐标和质心坐标作为人体特征;使用LSTM对人体特征序列进行时序特征提取;用全连接层实现分类。在公开数据集上进行实验,结果表明该模型具有较高的准确率和良好的泛化性。  相似文献   

7.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

8.
时序数据存在时序性,并且其短序列的特征存在重要程度差异性。针对时序数据特征,提出一种基于注意力机制的卷积神经网络(CNN)联合长短期记忆网络(LSTM)的神经网络预测模型,融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成:基于注意力机制的CNN,在标准CNN网络上增加注意力分支,以抽取重要细粒度特征;后端为LSTM,由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明,该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好,对比目前企业将预定量作为预测量的方法,预测缩放误差平均值(MASE)与均方根误差(RMSE)指标分别提升了89.64%和61.73%。  相似文献   

9.
社交网络现已成为现实世界中信息传播与扩散的主要媒介,对其中的热点信息进行建模和预测有着广泛的应用场景和商业价值,比如进行信息传播挖掘、广告推荐和用户行为分析等.目前的相关研究主要利用特征和时间序列进行建模,但是并没有考虑到社交网络中用户的社交圈层对于信息传播的作用.本文提出了一种基于社交圈层和注意力机制的热度预测模型SCAP(Social Circle and Attention based Popularity Prediction),首先对社交圈层进行定义,通过自动编码器提取用户历史文本序列的特征,对不同用户的社交圈层进行聚类划分,得到社交圈层特征.进而对于一条新发布的文本信息,通过长短期记忆网络与嵌入层提取其文本特征、用户特征和时序特征,并基于注意力机制,捕获到不同社交圈层对于该文本信息的影响程度,得到社交圈层注意力特征.最后将文本特征、用户特征、时序特征和社交圈层注意力特征进行特征融合,并通过两个全连接层进行建模学习,对社交信息的热度进行预测.在推特、微博和豆瓣等四个数据集上的实验结果表明,SCAP模型的预测表现相比于多个对比模型总体呈优,在不同数据集上均方误差(MSE)分别降低了0.017,0.022,0.021和0.031,F1分数分别提升0.034,0.021,0.034和0.025,能够较为准确地预测社交信息的热度.本文同时探究了不同实验参数对于模型的影响效果,如用户历史文本序列的数量、社交圈层的数量和时间序列的长度,最后验证了模型输入的各个特征和注意力机制的引入对于模型预测性能提升的有效性,在推特数据集中,引入社交圈层和注意力机制,模型的MSE指标分别降低了0.065和0.019.  相似文献   

10.
针对单一长短时记忆(LSTM)网络在航迹预测上无法有效提取关键信息以及难以精准拟合数据分布等问题,提出基于注意力机制和生成对抗网络(GAN)的飞行器短期轨迹预测模型。首先,引入注意力机制对航迹赋予不同的权重,以提升航迹中重要特征的影响力;其次,基于LSTM提取航迹序列特征,并经汇聚层汇集时间步长内所有的飞行器特征;最后,利用GAN在对抗博弈下不断优化的特性来优化模型,从而提高模型的准确性。相较于社会生成对抗网络(SGAN),所提模型在处于爬升阶段的数据集上的平均位移误差(ADE)、最终位移误差(FDE)及最大位移误差(MDE)分别降低了20.0%、20.4%和18.3%。实验结果表明,所提模型能更精确地预测未来航迹。  相似文献   

11.
目的 相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法 首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果 在公开的BAUM-1s (Bahcesehir University multimodal)和RML (Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论 该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。  相似文献   

12.
为更准确地预测中小河流水文时间序列变化,建立改进粒子群优化算法(PSO)与长短期记忆神经网络(LSTM)结合的预测模型.提出利用非线性惯性权重变化,加入自适应变异等操作的方法,改善PSO的寻优能力;实现LSTM与注意力机制(attention mechanism)的结合,建立PSO-LSTM组合模型,改变传统LSTM在...  相似文献   

13.
针对传统疲劳驾驶检测方法识别准确率低、泛化能力差的问题,提出了一种基于CNNs和LSTM的端到端可训练网络,检测驾驶员的疲劳状态。根据驾驶员面部特征点提取ROI,将在其他计算机视觉任务上表现较好的深度网络迁移到疲劳检测任务中,并结合LSTM处理时序数据的能力,提出一种新的疲劳检测网络,该网络能够读入视频流中的时序数据并检测出驾驶员的疲劳状态。实验证明所提方法和模型在公开数据集中具有较高的识别准确率,并且在不同的数据集间具有很好的泛化能力,对于减少路面车祸、保障人身安全具有很重要的意义。  相似文献   

14.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

15.
The existing seq2seq model often suffers from semantic irrelevance when generating summaries, and does not consider the role of keywords in summary generation. Aiming at this problem, this paper proposes a Chinese news text abstractive summarization method with keywords fusion. Firstly, the source text words are input into the Bi-LSTM model in order. The obtained hidden state is input to the sliding convolutional neural network, so local features between each word and adjacent words are extracted. Secondly, keyword information and gating unit are used to filter news text information, so as to remove redundant information. Thirdly, the global feature information of each word is obtained through the self-attention mechanism, and the hierarchical combination of local and global word features representation is obtained after encoding. Finally, the encoded word feature representation is input into the LSTM model with the attention mechanism to decode the summary information. The method models the n-gram features of news words through a sliding convolutional network. Based on this, the self-attention mechanism is used to obtain hierarchical local and global word feature representations. At the same time, the important role of keywords in abstractive summary is considered, and the gating unit is used to remove redundant information to obtain more accurate news text information. Experiments on Sogou's news corpus show that this method can effectively improve the quality of summary generation, and effectively enhance the values of ROUGE-1、ROUGE-2、ROUGE-L.  相似文献   

16.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

17.
针对视频中人体动作行为的空间复杂性和时间复杂性问题,提出一种融合图卷积神经网络和长短期记忆神经网络的双流网络方法2S-LSGCN。从人体关节点组成的骨架关节图中,提取动作的空间与时间特征;利用GCN提取骨架关节点间潜在的空间信息,LSTM提取人体动作前后之间的时间序列特征作为补充,分别将两个网络的预测输出进行晚融合,提高单个网络泛化能力不足的问题。该模型在NTU-RGBD数据集上达到了令人满意的效果,在与该领域中的同类算法比较中表现优异。  相似文献   

18.
Sun  Yanjing  Huang  Han  Yun  Xiao  Yang  Bin  Dong  Kaiwen 《Applied Intelligence》2022,52(1):113-126

Skeleton-based action recognition has recently attracted widespread attention in the field of computer vision. Previous studies on skeleton-based action recognition are susceptible to interferences from redundant video frames in judging complex actions but ignore the fact that the spatial-temporal features of different actions are extremely different. To solve these problems, we propose a triplet attention multiple spacetime-semantic graph convolutional network for skeleton-based action recognition (AM-GCN), which can not only capture the multiple spacetime-semantic feature from the video images to avoid limited information diversity from single-layer feature representation but can also improve the generalization ability of the network. We also present the triplet attention mechanism to apply an attention mechanism to different key points, key channels, and key frames of the actions, improving the accuracy and interpretability of the judgement of complex actions. In addition, different kinds of spacetime-semantic feature information are combined through the proposed fusion decision for comprehensive prediction in order to improve the robustness of the algorithm. We validate AM-GCN with two standard datasets, NTU-RGBD and Kinetics, and compare it with other mainstream models. The results show that the proposed model achieves tremendous improvement.

  相似文献   

19.
基于时序数据建模的长短时神经网络(LSTM)可用于预测类问题。现实场景中,LSTM预测精度往往与输入序列长度相关,有效的历史信息会被新输入的数据淹没。针对此问题,提出在LSTM节点中构建强化门实现对遗忘信息的提取,并与记忆信息按比例选取、融合、输入记忆单元,增加学习过程中的梯度传导能力,使网络对相对较远的信息保持敏感以提升记忆能力。实验采用工业故障数据,当序列长度超过100时,具有强化门机制的改进模型预测误差低于其他LSTM模型。预测精度的差距随序列增加而增大,当序列长度增至200时,改进模型的预测误差(RMSE/MAE)较原模型分别降低了26.98%与35.85%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号