首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
煤矿井下人员行为检测是感知矿山建设关注的重点,而现有的基于电磁波、基于可穿戴设备、基于计算机视觉等人员行为检测方法无法综合时间、地点、行为、环境等多方面因素评判矿山人员行为是否安全。提出了一种矿山人员行为视觉语义方法,通过特征提取、语义检测、特征重构、解码等生成描述视频中人员行为的语句。分别采用InceptionV4网络、I3D网络提取视频图像静态、动态特征,在InceptionV4网络中引入基于空间位置注意力模型和通道注意力模型的并行双重注意力机制,提高了网络的特征提取能力。针对视频内容与视觉语义易出现不一致的问题,引入语义检测网络对视频特征添加高级语义标签生成嵌入特征,将其与视频特征、语义特征共同输入解码器,并在解码过程中引入特征重构模块,通过获取解码器隐藏层状态重建视频特征,增强了视频特征与描述语句之间的关联关系,提高了视觉语义生成的准确性。采用MSVD,MSR-VTT公共数据集及自制矿山视频数据集进行实验,结果表明该方法具有较好的语义一致性,能准确获取视频中关键语义,更好地反映视频真实含义。  相似文献   

2.
该文描述了一种构建问答式检索系统中答案排序模型的新方法。该方法结合了基于密度方法的度量特征和外部知识库,并且引入了基于语法分析方法的语法关键路径的新特征,使用支持向量机回归模型训练评估函数。实验证明,引入了上述语法关键路径特征后的新答案排序模型的排序性能有了明显提高。  相似文献   

3.
马苗  王伯龙  吴琦  武杰  郭敏 《软件学报》2019,30(4):867-883
作为计算机视觉、多媒体、人工智能和自然语言处理等领域的交叉性研究课题,视觉场景描述的研究内容是自动生成一个或多个语句用于描述图像或视频中呈现的视觉场景信息.视觉场景中内容的丰富性和自然语言表达的多样性使得视觉场景描述成为一项充满挑战的任务,综述了现有视觉场景描述方法及其效果评价.首先,论述了视觉场景描述的定义、研究任务及方法分类,简要分析了视觉场景描述与多模态检索、跨模态学习、场景分类、视觉关系检测等相关技术的关系;然后分类讨论视觉场景描述的主要方法、模型及研究进展,归纳日渐增多的基准数据集;接下来,梳理客观评价视觉场景描述效果的主要指标和视觉场景描述技术面临的问题与挑战,最后讨论未来的应用前景.  相似文献   

4.
三维指称表达理解(3D VG)旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。  相似文献   

5.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

6.
视频描述生成因其广泛的潜在应用场景而成为近年来的研究热点之一。针对模型解码过程中视觉特征和文本特征交互不足而导致描述中出现识别错误的情况,提出基于编解码框架下的视觉与文本特征交互增强的多特征融合视频描述方法。在解码过程中,该方法使用视觉特征辅助引导描述生成,不仅为每一步的生成过程提供了文本信息,同时还提供了视觉参考信息,引导其生成更准确的词,大幅度提升了模型产生的描述质量;同时,结合循环dropout缓解解码器存在的过拟合情况,进一步提升了评价分数。在该领域广泛使用的MSVD和MSRVTT数据集上的消融和对比实验结果证明,提出的方法的可以有效生成视频描述,综合指标分别增长了17.2和2.1个百分点。  相似文献   

7.
针对大规模城市场景受制于数据规模,难以实现完整场景的视觉无损渲染的问题,提出一种基于过程式纹理重构和混合层次细节(LOD)模型的渲染方法.首先提取纹理中的重复与对称特征,构造纹理的过程式语法表示,实现了约70%的数据压缩,并且用户可以直接控制过程式语法的生成;然后通过几何模型采样创建点、线和多边形混合的LOD表示并编码存储;最后根据屏幕空间投影面积选择LOD模型进行渲染.实验结果表明,与原始模型和几何LOD方法相比,该方法分别实现了约10倍和5倍的渲染加速,可以实时渲染城市级大场景;在大幅度提高渲染效率的同时,基于72个个体样本的用户感知评价测试和基于动态范围无关算法的自动化测试结果证明,该方法渲染结果的视觉质量与原始模型相比无显著差异,是一种视觉无损渲染方法.  相似文献   

8.
针对现有图像描述方法将视觉和语义信息单独处理、缺乏结构化信息和忽略全局信息的问题,提出一种同步融合视觉与语义信息的图像描述模型(SG-sMLSTM)。通过融合图像全局特征和候选区域的多模态特征增强和细化图像视觉信息,基于场景图实现结构化语义信息编码;解码部分设计sMLSTM结构,利用注意机制同步动态融合视觉和语义信息,使模型在每个时间步接收更全面的信息,自适应选择关注更关键的区域。基于MSCOCO数据集的实验结果表明,该模型能够产生更准确的描述语句,在评价指标得分上与基线方法相比有约3%的提升。  相似文献   

9.
根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的多样性,其次在动作提议生成和描述生成两阶段均利用音频特征增强提议和描述生成效果,最后使用时序语义关系模块建模事件间的时序结构和语义信息以进一步增强描述生成的准确性。特别地,该文还构建了一个基于学习场景的视频密集描述数据集SDVC以探究该文所提方法在学习场景现实应用中的有效性。在ActivityNet Captions和SDVC数据集上的实验结果表明,动作提议生成AUC值分别提升0.8%和6.7%;使用真实动作提议进行描述生成时,BLEU_3值分别提升1.4%和4.7%,BLEU_4值分别提升0.9%和5.3%;使用生成的动作提议进行描述生成时,SDVC数据集BLEU_3、BLEU_4值分别提升2.3%和2.2%。  相似文献   

10.
一种SQL语法分析的策略和实现   总被引:4,自引:0,他引:4  
SQL语言是数据库系统的重要操作接口,与数据库相关的应用开发经常需要对SQL语句进行语法分析及语句重构。以查询语句分析为例,从问题描述、语法范式构建、词法分析、语法分析和应用接口设计等方面详细阐述了一种SQL语句解析的通用策略,并介绍了与之相关的冲突消解、可重入策略和错误处理三个方面的技术。  相似文献   

11.
视频目标跟踪在计算机视觉领域有着广泛应用,由于目标自身和外界环境变化的复杂性和难以预知性,使得复杂场景下鲁棒实时目标跟踪成为一项亟待解决的关键问题.由于视觉信息可以用少量神经元进行稀疏表示,因此稀疏表示已经广泛应用于人脸识别、目标检测和目标跟踪等计算机视觉领域.本文旨在对基于稀疏表示的视频目标跟踪算法进行综述.首先,介绍了基于稀疏表示的视频目标跟踪算法中的字典组成;其次,介绍了稀疏模型的构建及求解算法和模型更新,并对算法复杂度进行了简要分析;然后,对现有公开代码的稀疏表示跟踪算法在测试数据上进行了实验分析,结合算法模型和实验结果对其进行了分析;最后,对基于稀疏表示的视频跟踪算法存在问题进行了讨论,并对未来的研究趋势进行了展望.  相似文献   

12.
随着互联网技术的飞速发展,视频数据呈现海量爆炸式增长,传统的视频搜索引擎 多数采用单一的基于文本的检索方法,该检索方法对于视频这类非结构化数据,存在着内容缺失、 语义隔阂等问题,导致检索结果相关度较低。提出一种基于视觉词袋的视频检索校准方法,该方 法结合了视频数据的可视化特征提取技术、TF-IDF 技术、开放数据技术,为用户提供优化后的 视频检索校准结果。首先,基于HSV 模型的聚类算法提取视频的关键帧集合及关键帧权值向量; 接着用关键帧图像的加速稳健特征等表示视频的内容特征,解决视频检索的内容缺失问题;然后 利用TF-IDF 技术衡量查询语句关键字的权值,并开放数据获得查询语句关键字的可视化特征和 语义信息,解决视频检索的语义隔阂问题;最后,将提出的基于视觉词袋的视频检索校准算法应 用于Internet Archive 数据集。实验结果表明,与传统的基于文本的视频检索方法相比,该方法的 平均检索结果相关度提高了15%。  相似文献   

13.
综合结构和纹理特征的场景识别   总被引:1,自引:0,他引:1  
当前在计算机视觉领域,场景识别尽管取得了较大进展,但其对于计算机视觉而言,仍然是一个极具挑战的问题.此前的场景识别方法,有些需要预先手动地对训练图像进行语义标注,并且大部分场景识别方法均基于"特征袋"模型,需要对提取的大量特征进行聚类,计算量和内存消耗均很大,且初始聚类中心及聚类数目的选择对识别效果有较大影响.为此本文提出一种不基于"特征袋"模型的无监督场景识别方法.先通过亚采样构建多幅不同分辨率的图像,在多级分辨率图像上,分别提取结构和纹理特征,用本文提出的梯度方向直方图描述方法表示图像的结构特征,用Gabor滤波器组和Schmid滤波集对图像的滤波响应表示图像的纹理特征,并将结构和纹理特征作为相互独立的两个特征通道,最后综合这两个特征通道,通过SVM分类,实现对场景的自动识别.分别在Oliva,Li Fei-Fei和Lazebnik等的8类、13类和15类场景图像库上进行测试实验,实验结果表明,梯度方向直方图描述方法比经典的SIFT描述方法,有着更好的场景识别性能;综合结构和纹理特征的场景识别方法,在通用的三个场景图像库上取得了很好的识别效果.  相似文献   

14.
随着自媒体时代的兴起,网民自制的短视频数据在网络上广泛传播,视频版权保护已成为重中之重。视频指纹技术将数字视频内容映射为唯一的身份描述符,用于视频数据的智能化审核。如何充分挖掘短视频的时空信息和视频间的关联性形成有效的视觉特征表达,是决定短视频指纹质量的关键因素。因此,基于R(2+1)D三元孪生网络模型,提出一种短视频指纹提取方法。首先,使用R(2+1)D卷积神经网络模型提取短视频的时空特征;然后构建权重参数共享的三元组网络学习成组视频的关联性,映射为紧凑的哈希特征表示;最后通过哈希层编码为视频指纹。在CC_Web_Video和VCDB数据集进行了实验,结果表明该方法可以在保证短视频指纹紧凑性的前提下,取得优于其他算法的性能指标。  相似文献   

15.
目的 为研究多场景下的行人检测,提出一种视觉注意机制下基于语义特征的行人检测方法。方法 首先,在初级视觉特征基础上,结合行人肤色的语义特征,通过将自下而上的数据驱动型视觉注意与自上而下的任务驱动型视觉注意有机结合,建立空域静态视觉注意模型;然后,结合运动信息的语义特征,采用运动矢量熵值计算运动显著性,建立时域动态视觉注意模型;在此基础上,以特征权重融合的方式,构建时空域融合的视觉注意模型,由此得到视觉显著图,并通过视觉注意焦点的选择完成行人检测。结果 选用标准库和实拍视频,在Matlab R2012a平台上,进行实验验证。与其他视觉注意模型进行对比仿真,本文方法具有良好的行人检测效果,在实验视频上的行人检测正确率达93%。结论 本文方法在不同的场景下具有良好的鲁棒性能,能够用于提高现有视频监控系统的智能化性能。  相似文献   

16.
对程序进行静态分析是程序检查的一种有效的手段,而建立程序模型是对程序进行自动分析的基础。基于对象、域和型的层次式程序表示模型(OSTPM)是以域为基础的层次式的程序信息递归表示模型。该模型侧重反映程序中对象、域和类型间的内在关系,并通过域把不同的对象和型关联起来。可扩展程序对象模型(EPOM)是用来具体刻画程序语法结构的一种抽象模型。在对程序进行词法和语法分析后得到EPOM的情况下通过询问-回答的对象控制模式可以方便的构建OSTPM。  相似文献   

17.
综合利用声视特征的新闻视频结构化模型   总被引:5,自引:1,他引:5  
视频结构化表征和基于这种表征进行相似度比较是视频检索的前提和最基础的重要工作。该文受视频制作过程的启发,通过分析新闻视频的内容结构特点,提出一个基于多语义抽象层次表示的5层视频目录结构化模型;在此基础上,采用分层处理思想,通过综合利用声视特征实现了基于目录结构的新闻视频结构化,克服了单纯用视觉特征难以胜任场景分段的困难,实验验证了该文思想及相应算法的有效性。  相似文献   

18.
视觉词典法是当前广泛使用的一种图像表示方法,针对传统视觉词典法存在的表示误差大、空间信息丢失以及判别性弱等问题,提出一种基于Fisher判别稀疏编码的图像场景分类算法.首先利用近邻视觉词汇重构局部特征点,构建局部特征点的非负稀疏局部线性编码,从而有效地利用图像的空间信息;然后在非负稀疏局部线性编码的基础上引入Fisher判别约束准则,构建基于Fisher判别约束的非负稀疏局部线性编码模型,以获得图像的判别稀疏向量表示,增强图像稀疏表示的判别性;最后结合支持向量机(SVM)分类器实现场景分类.实验结果表明,该算法提高了图像稀疏表示的特征分类能力以及分类性能,更有利于场景分类任务.  相似文献   

19.
机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型.  相似文献   

20.
城市道路视频描述存在仅考虑视觉信息而忽视了同样重要的音频信息的问题,多模态融合算法是解决此问题的方案之一。针对现有基于Transformer的多模态融合算法都存在着模态之间融合性能低、计算复杂度高的问题,为了提高多模态信息之间的交互性,提出了一种新的基于Transformer的视频描述模型多模态注意力瓶颈视频描述(multimodal attention bottleneck for video captioning,MABVC)。首先使用预训练好的I3D和VGGish网络提取视频的视觉和音频特征并将提取好的特征输入到Transformer模型当中,然后解码器部分分别训练两个模态的信息再进行多模态的融合,最后将解码器输出的结果经过处理生成人们可以理解的文本描述。在通用数据集MSR-VTT、MSVD和自建数据集BUUISE上进行对比实验,通过评价指标对模型进行验证。实验结果表明,基于多模态注意力融合的视频描述模型在各个指标上都有明显提升。该模型在交通场景数据集上依旧能够取得良好的效果,在智能驾驶行业具有很大的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号