排序方式: 共有14条查询结果,搜索用时 156 毫秒
1.
在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。 相似文献
2.
语义分割需要兼顾目标级的高级语义信息和像素级的准确性,所以非常有挑战性。最近,基于全卷积网络的系统在这个领域取得了很大的进展。和分类网络不同,在这些密集预测模型中,综合来自不同层的特征尤为重要,因为这些特征包含着不同级别的信息。什么样的网络结构才能最好地利用这些特征仍然是一个开放的问题。提出了一种混合上下文网络的模块,加入该模块的语义分割系统表现出了非常优越的性能,在庭审场景下亦表现良好。 相似文献
3.
4.
几年前,智能视频监控还只是在安防圈里谈论的话题,是象牙塔里的高新玩意儿。那时候,智能视频监控产品,少、贵、基本不实用。近几年,随着硬件处理能力的提升和价格的下降,以及计算机视觉等相关技术的发展,智能视频监控产品已从前几年的演示阶段逐渐进入规模化使用阶段,并成为安防界的热门话题之一,甚至业界认为是能够重整视频监控产业的革命性技术。 相似文献
5.
目的 室外监控在雾霾天气所采集图像的成像清晰度和目标显著程度均会降低,当在雾霾图像提取与人眼视觉质量相关的自然场景统计特征和与目标检测精度相关的目标类别语义特征时,这些特征与从清晰图像提取的特征存在明显差别。为了提升图像质量并且在缺乏雾霾天气目标检测标注数据的情况下提升跨域目标检测效果,本文综合利用传统方法和深度学习方法,提出了一种无监督先验混合图像特征级增强网络。方法 利用本文提出的传统先验构成雾气先验模块;其后连接一个特征级增强网络模块,将去散射图像视为输入图像,利用像素域和特征域的损失实现场景统计特征和目标类别语义相关表观特征的增强。该混合网络突破了传统像素级增强方法难以表征抽象特征的制约,同时克服了对抗迁移网络难以准确衡量无重合图像域在特征空间分布差异的弱点,也减弱了识别算法对于低能见度天候采集图像标注数据的依赖,可以同时提高雾霾图像整体视觉感知质量以及局部目标可识别表现。结果 实验在两个真实雾霾图像数据集、真实图像任务驱动的测试数据集(real-world task-driven testing set, RTTS)和自动驾驶雾天数据集(foggy driving dense)上与最新的5种散射去除方法进行了比较,相比于各指标中性能第2的算法,本文方法结果中梯度比指标R值平均提高了50.83%,属于感知质量指标的集成自然图像质量评价指标(integrated local natural image quality evaluator, IL-NIQE)值平均提高了6.33%,属于跨域目标检测指标的平均精准率(mean average precision, MAP)值平均提高了6.40%,平均查全率Recall值平均提高了7.79%。实验结果表明,本文方法结果在视觉质量和目标可识别层面都优于对比方法,并且本文方法对于高清视频的处理速度达50帧/s,且无需标注数据,因而在监控系统具有更高的实用价值。结论 本文方法可以同时满足雾霾天候下对采集视频进行人眼观看和使用识别算法进行跨域目标检测的需求,具有较强的应用意义。 相似文献
6.
激光数码全息测量技术在循环流化床中的应用 总被引:5,自引:5,他引:5
粒子在床内的空间分布对循环流化床的研究非常重要,该文用激光数码全息技术对流化床冷态实验台的稀相区进行测量试验。利用HE-NE激光器通过两扇开设在流化床炉壁上的玻璃窗照射床内粒子,激光与粒子遭遇并产生衍射,衍射生成的同轴全息图被一只数码摄像机拍摄。基于该文的数学模型,同轴全息过程可以用一组小波函数的卷积来表述,因此两相流粒子的三维图像可以通过全息图与小波函数的卷积来实现数码重建。利用一系列图像处理手段从三维重建图像中获得粒子的粒径和三维坐标,从而得到流化床内部的粒子空间分布。最后对实验结果进行了分析。 相似文献
7.
研究了利用激光数码全息技术实现两相流三维空间速度场测量的方法.用1台脉冲激光器照射两相流,平面光和颗粒衍射光发生干涉,在数码相机的CCD平面上生成全息图像.用1台跨帧数码像机连续拍摄两相流全息图像,对全息图应用基于小波变换的三维图像重建算法,在计算机上实现物体三维图像的重建,再利用图像互相关测速技术从连续的重建三维图像中提取两相流三维空间的速度场.实验中将2只置于不同空间位置的喷嘴向不同方向喷射雾化的气液两相流,并对生成的流场进行测量.结果表明该方法可以实现两相流三维空间速度场测量. 相似文献
8.
为了加快颗粒全息图的重建速度,提出了一种基于多线程编译框架(OpenMP)和统一计算设备架构(CUDA)并行技术的二级并行架构颗粒全息图快速重建方法。第1级并行针对重建截面,第2级并行针对像素,同时在这两个维度进行并行重建,利用OpenMP实现图片级并行,利用CUDA实现像素级并行。以煤粉颗粒全息图为测试对象,同时采用单线程重建程序和二级并行重建程序进行全息重建,比较了两种计算方式的重建结果和计算耗时。结果表明,二级并行重建结果与单线程重建结果是一致的,且可大大缩短重建耗时; 对于分辨率为5000×5000的全息图,在重建截面数为40时,可实现48.3倍的加速比。此计算架构在数字全息的颗粒场实时在线诊断中具有很好的应用前景。 相似文献
9.
研究从全息重建颗粒图像中进行颗粒识别和定位的方法. 利用小波函数重建颗粒全息图,采用灰度阈值自动判定方法对所重建的三维颗粒场图像进行颗粒图像与背景的分离和颗粒判定.根据重建颗粒图像灰度的空间分布特点,采用灰度和颗粒面积双判据方法实现颗粒空间位置,特别是流场深度方向的准确定位.对已知记录距离的理想模拟颗粒群全息图进行重建测试,同时在共轴全息试验台上对已知记录距离的颗粒试验片进行颗粒识别和定位算法的测试和验证.结果表明,所提出的灰度阈值自动判定方法准确、有效,最大灰度和颗粒面积双判据方法能够更加准确地进行颗粒空间定位. 相似文献
10.
为了实现两相流粒径空间分布的测量,研究了激光干涉成像测量技术.激光干涉成像测量技术利用片状脉冲激光束照射粒子场,用数码相机拍摄粒子的散射光干涉图像,并从粒子干涉图像中获取粒子空间位置和粒径分布信息.利用激光粒度仪验证激光干涉成像测量技术的粒径测量精度.实验证明,该技术有较高的测量精度.对水喷雾场的不同片状区域进行测量,从而获得两相流的空间粒径分布.结果显示,所测喷雾场平均粒径由中心区域向边缘区域逐渐变小,大粒子基本集中在中心区域,小粒子基本集中在边缘区域.该方法为研究两相流流场特性提供了一种有效的测量手段. 相似文献