期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王钊解文彬文江《计算机系统应用》2023,32(4):329-338

针对可见光模态与热红外模态间的差异问题和如何充分利用多模态信息进行行人检测,本文提出了一种基于YOLO的多模态特征差分注意融合行人检测方法.该方法首先利用YOLOv3深度神经网络的特征提取主干分别提取多模态特征;其次在对应多模态特征层之间嵌入模态特征差分注意模块充分挖掘模态间的差异信息,并经过注意机制强化差异特征表示进而改善特征融合质量,再将差异信息分别反馈到多模态特征提取主干中,提升网络对多模态互补信息的学习融合能力;然后对多模态特征进行分层融合得到融合后的多尺度特征;最后在多尺度特征层上进行目标检测,预测行人目标的概率和位置.在KAIST和LLVIP公开多模态行人检测据集上的实验结果表明,提出的多模态行人检测方法能有效解决模态间的差异问题,实现多模态信息的充分利用,具有较高的检测精度和速度,具有实际应用价值. 相似文献

2.

基于场景几何信息的显著性目标检测方法综述

吴岚虎李智玮刘垒烨朴永日卢湖川《模式识别与人工智能》2023,(2):120-142

显著性目标检测在图像和视频压缩、伪装物体检测、医学图像分割等领域具有重要作用.随着深度传感器和光场技术的广泛应用,深度图像和光场数据等场景几何信息开始应用于显著性目标检测,可提升模型在复杂场景下的性能,由此学者们提出一系列基于场景几何信息的显著性目标检测方法.文中旨在分析总结经典的基于场景几何信息的显著性目标检测方法.首先,介绍方法的基本框架及评估标准.然后,围绕多模态特征融合、多模态信息优化、网络模型轻量化三方面,分类概述和分析经典的RGB-D显著性目标检测方法和光场显著性目标检测方法.同时,详细介绍基于场景几何信息的显著性目标检测方法的工作进展.最后,讨论方法目前存在的问题,展望未来的研究方向. 相似文献

3.

基于多层LSTM融合的多模态情绪识别

张亚伟吴良庆王晶晶李寿山《中文信息学报》2022,36(5):145-152

情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。相似文献

4.

面向图像文本的多模态处理方法综述

姜丽梅李秉龙《计算机应用研究》2024,41(5)

在深度学习领域,解决实际应用问题往往需要结合多种模态信息进行推理和决策,其中视觉和语言信息是交互过程中重要的两种模态。在诸多应用场景中,处理多模态任务往往面临着模型架构组织方式庞杂、训练方法效率低下等问题。综合以上问题,梳理了在图像文本多模态领域的近五年的代表性成果。首先从主流的多模态任务出发,介绍了相关文本和图像多模态数据集以及预训练目标。其次,考虑以Transformer为基础结构的视觉语言模型,结合特征提取方法,从多模态组织架构、跨模态融合方法等角度进行分析,总结比较不同处理策略的共性和差异性。然后从数据输入、结构组件等多角度介绍模型的轻量化方法。最后,对基于图像文本的多模态方法未来的研究方向进行了展望。相似文献

5.

基于多模态多级特征聚合网络的光场显著性目标检测

王安志任春洪何淋艳杨元英欧卫华《计算机工程》2022,48(7):227-233+240

现有基于深度学习的显著性检测算法主要针对二维RGB图像设计,未能利用场景图像的三维视觉信息,而当前光场显著性检测方法则多数基于手工设计,特征表示能力不足,导致上述方法在各种挑战性自然场景图像上的检测效果不理想。提出一种基于卷积神经网络的多模态多级特征精炼与融合网络算法,利用光场图像丰富的视觉信息,实现面向四维光场图像的精准显著性检测。为充分挖掘三维视觉信息,设计2个并行的子网络分别处理全聚焦图像和深度图像。在此基础上,构建跨模态特征聚合模块实现对全聚焦图像、焦堆栈序列和深度图3个模态的跨模态多级视觉特征聚合,以更有效地突出场景中的显著性目标对象。在DUTLF-FS和HFUT-Lytro光场基准数据集上进行实验对比,结果表明,该算法在5个权威评估度量指标上均优于MOLF、AFNet、DMRA等主流显著性目标检测算法。相似文献

6.

基于遗传算法的多模态病变图像关联挖掘仿真

岳根霞《计算机仿真》2021,38(2):225-229

针对传统多模态病变图像挖掘误差较大的问题,提出了一种基于遗传算法的多模态病变图像关联挖掘方法.通过获取病变图像Shannon信息熵中条件熵与联合熵的关系,对病变图像的互信息进行归一化处理;通过遗传算法对病变图像互信息的最优解进行搜索,获取病变图像的最优模态;建立最优模态获取模型,获取多种成像设备病变图像的最优模态,实现多模态病变图像的合成.为了验证基于遗传算法的多模态病变图像的图像挖掘误差较小,将该多模态病变图像与基于刚体模型的多模态病变图像、基于图像灰度的多模态病变图像、基于图像特征点的多模态病变图像进行对比,得到这四种多模态病变图像的图像挖掘误差分别为0.41、0.2、0.19、0.063,通过比较可知该多模态病变图像的图像挖掘误差最小,即该多模态病变图像更加精准. 相似文献

7.

基于视觉和文本的多模态文档图像目标检测

李玉腾史操许灿辉程远志《计算机应用研究》2023,40(5)

由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。相似文献

8.

基于RGB-D图像特征的人体行为识别

唐超王文剑张琛彭华李伟《模式识别与人工智能》2019,32(10):901-908

针对现有的多模态特征融合方法不能有效度量不同特征的贡献度的问题,文中提出基于RGB-深度(RGB-D)图像特征的人体动作识别方法.首先获取基于RGB模态信息的方向梯度直方图特征、基于深度图像模态信息的时空兴趣点特征和基于关节模态信息的人体关节点位置特征,分别表征人体动作.采用不同距离度量公式的最近邻分类器对这3种不同模态特征表示的预测样本进行集成决策分类.在公开数据集上的实验表明,文中方法具有简单、快速,高效的特点. 相似文献

9.

基于深度神经网络的图像碎片化信息问答算法

王一蕾卓一帆吴英杰陈铭钦《计算机研究与发展》2018,55(12):2600-2610

大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering, VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明：该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率. 相似文献

10.

多模态深度学习综述

刘建伟丁熙浩罗雄麟《计算机应用研究》2020,37(6):1601-1614

在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。相似文献

11.

改进YOLOv5s的遥感图像目标检测

下载免费PDF全文

赵文清康怿瑾赵振兵翟永杰《智能系统学报》2023,18(1):86-95

针对遥感图像中感兴趣目标特征不明显、背景信息复杂、小目标居多导致的目标检测精度较低的问题,本文提出了一种改进YOLOv5s的遥感图像目标检测算法（Swin-YOLOv5s）。首先,在骨干特征提取网络的卷积块中加入轻量级通道注意力结构,抑制无关信息的干扰;其次,在多尺度特征融合的基础上进行跨尺度连接和上下文信息加权操作来加强待检测目标的特征提取,将融合后的特征图组成新的特征金字塔;最后,在特征融合的过程中引入Swin Transformer网络结构和坐标注意力机制,进一步增强小目标的语义信息和全局感知能力。将本文提出的算法在DOTA数据集和RSOD数据集上进行消融实验,结果表明,本文提出的算法能够明显提高遥感图像目标检测的平均准确率。相似文献

12.

遥感影像小目标检测研究进展

下载免费PDF全文

袁翔程塨李戈戴威尹文昕冯瑛超姚西文黄钟泠孙显韩军伟《中国图象图形学报》2023,28(6):1662-1684

独特的拍摄视角和多变的成像高度使得遥感影像中包含大量尺寸极其有限的目标,如何准确有效地检测这些小目标对于构建智能的遥感图像解译系统至关重要。本文聚焦于遥感场景,对基于深度学习的小目标检测进行全面调研。首先,根据小目标的内在特质梳理了遥感影像小目标检测的3个主要挑战,包括特征表示瓶颈、前背景混淆以及回归分支敏感。其次,通过深入调研相关文献,全面回顾了基于深度学习的遥感影像小目标检测算法。选取3种代表性的遥感影像小目标检测任务,即光学遥感图像小目标检测、SAR图像小目标检测和红外图像小目标检测,系统性总结了3个领域内的代表性方法,并根据每种算法使用的技术思路进行分类阐述。再次,总结了遥感影像小目标检测常用的公开数据集,包括光学遥感图像、SAR图像及红外图像3种数据类型,借助于3种领域的代表性数据集SODA-A（small object detection datasets）、AIR-SARShip和NUAA-SIRST（Nanjing University of Aeronautics and Astronautics,single-frame infrared small target）,进一步对主流的遥感影像目标检测算法在面对小目标时的性能表现进行横向对比及深入评估。最后,对遥感影像小目标检测的应用现状进行总结,并展望了遥感场景下小目标检测的发展趋势。相似文献

13.

基于改进SSD算法的遥感图像目标检测

张艳杜会娟孙叶美李现国《计算机工程》2021,47(9):252-258,265

在遥感图像目标检测领域,多数目标检测算法针对小目标检测时效果不佳,为此,提出一种多尺度特征融合的遥感图像目标检测算法。利用SSD算法的基础网络进行特征提取,形成特征图金字塔。设计特征图融合模块,融合浅层特征图的位置信息和深层特征图的语义信息,从而保留丰富的上下文信息。设计冗余信息去除模块,通过卷积操作进一步提取特征图中的特征,并对特征信息进行筛选,以减少特征图融合时带来的混叠效应。在遥感图像数据集NWPU VHR-10上的实验结果表明,该算法的平均检测精度高达93.9%,其针对遥感图像小目标的检测性能优于Faster R-CNN和SSD等算法。相似文献

14.

增强细节的RGB‐IR多通道特征融合语义分割网络

谢树春陈志华盛斌《计算机工程》2022,48(10):230

现有基于深度学习的语义分割方法对于遥感图像的地物边缘分割不准确,小地物分割效果较差,并且RGB图像质量也会严重影响分割效果。提出一种增强细节的RGB-IR多通道特征融合语义分割网络MFFNet。利用细节特征抽取模块获取RGB和红外图像的细节特征并进行融合,生成更具区分性的特征表示并弥补RGB图像相对于红外图像所缺失的信息。在融合细节特征和高层语义特征的同时,利用特征融合注意力模块自适应地为每个特征图生成不同的注意力权重,得到具有准确语义信息和突出细节信息的优化特征图。将细节特征抽取模块和特征融合注意力模块结构在同一层级上设计为相互对应,从而与高层语义特征进行融合时抑制干扰或者无关细节信息的影响,突出重要关键细节特征,并在特征融合注意力模块中嵌入通道注意力模块,进一步加强高低层特征有效融合,产生更具分辨性的特征表示,提升网络的特征表达能力。在公开的Postdam数据集上的实验结果表明,MFFNet的平均交并比为70.54%,较MFNet和RTFNet分别提升3.95和4.85个百分点,并且对于边缘和小地物的分割效果提升显著。相似文献

15.

仿真图像作为模板的遥感影像小目标检测方法

下载免费PDF全文

曹亚明肖奇杨震《计算机工程与应用》2022,58(17):111-119

随着传感器技术和航空遥感技术的不断进步,遥感影像的质量和数量也得到了极大的提高,而遥感影像中的目标检测是理解和分析遥感影像所面临的一个基本问题。针对神经网络在遥感影像小目标检测任务中难以提取足够多的有效特征、遥感小目标易受云雾遮挡等问题,提出了一种基于仿真图像模板匹配的方法,通过特征融合的方式成功地将该方法应用于遥感影像小目标检测任务。成像仿真技术生成的仿真图像包含了更多的遥感小目标特征,如几何形状、材质等。在与深度学习结合之后,更多的特征可以提升神经网络检测遥感影像小目标的准确率。实验结果表明将基于仿真图像的模板匹配方法应用于深度学习之后,对于遥感影像小目标检测取得了较好的效果,尤其是针对受到云雾等天气干扰的小目标。相似文献

16.

基于Relief-PCA特征选择的遥感图像变化检测

下载免费PDF全文

王守峰杨学志董张玉石聪聪《图学学报》2019,40(1):117

面向对象的变化检测技术在高分辨率遥感图像领域已经得到广泛地应用。由于遥感图像受光照、大气环境等成像条件的影响,图像特征的质量也参差不齐,筛选出高质量的特征成为对象级遥感图像变化检测的关键。针对此问题,提出了一种基于 Relief-PCA 特征选择的对象级遥感图像变化检测方法。首先,对原始图像进行多尺度分割获得目标对象,并提取对象的光谱特征与纹理特征;然后,利用对数比值法获得变化矢量,再使用 Relief-PCA 特征选择的方法对图像的对象特征进行筛选与降维;最后,计算并生成 CVA 变化强度图,利用 Otsu 方法对变化强度图进行阈值分割得到最终的变化检测结果。实验表明：与已有方法相比,该方法的变化检测精度更高,误检率和漏检率更低。相似文献

17.

航空遥感图像深度学习目标检测技术研究进展

下载免费PDF全文

石争浩仵晨伟李成建尤珍臻王泉马城城《中国图象图形学报》2023,28(9):2616-2643

航空遥感图像目标检测旨在定位和识别遥感图像中感兴趣的目标,是航空遥感图像智能解译的关键技术,在情报侦察、灾害救援和资源勘探等领域具有重要应用价值。然而由于航空遥感图像具有尺寸大、目标小且密集、目标呈任意角度分布、目标易被遮挡、目标类别不均衡以及背景复杂等诸多特点,航空遥感图像目标检测目前仍然是极具挑战的任务。基于深度卷积神经网络的航空遥感图像目标检测方法因具有精度高、处理速度快等优点,受到了越来越多的关注。为推进基于深度学习的航空遥感图像目标检测技术的发展,本文对当前主流遥感图像目标检测方法,特别是2020—2022年提出的检测方法,进行了系统梳理和总结。首先梳理了基于深度学习目标检测方法的研究发展演化过程,然后对基于卷积神经网络和基于Transformer目标检测方法中的代表性算法进行分析总结,再后针对不同遥感图象应用场景的改进方法思路进行归纳,分析了典型算法的思路和特点,介绍了现有的公开航空遥感图像目标检测数据集,给出了典型算法的实验比较结果,最后给出现阶段航空遥感图像目标检测研究中所存在的问题,并对未来研究及发展趋势进行了展望。相似文献

18.

自适应加权特征字典与联合稀疏相结合的遥感目标检测

王威陈俊伍王新《计算机科学》2018,45(10):276-280

随着分辨率的提高,遥感图像空间包含的有用信息越来越丰富,这使得遥感数据的处理变得更加复杂,容易发生维数灾难并影响识别效果。针对这一情况,提出一种自适应加权特征字典与联合稀疏相结合的遥感图像目标检测方法(GJ-SRC)。首先将训练图像和待测图像进行Gabor变换以提取特征图像。然后计算各个特征值在进行稀疏表示时的贡献权重,通过自适应方法构造特征字典,使字典具有更强的判别能力。最后,提取每一类图像的公共特征和单个图像的私有特征构成联合字典,并利用测试图像稀疏表示进行目标检测识别。为了避免Gabor变换产生的维数灾难,在处理过程中采用PCA方法对特征字典进行降维,以降低计算成本。实验表明,与现有的SRC方法和遥感目标检测方法等相比,所提方法具有较好的检测效果。相似文献

19.

基于最小熵和遗传算法的遥感图像特征选择

陈修桥胡以华张军《遥感信息》2005,(5):3-5,11

在分析遥感红外图像特点的基础上,提取了灰度共生矩阵的能量、惯性、熵等14个特征量用于红外图像纹理分析.以最小判别熵可分性判据作为准则,利用遗传算法搜索最优特征子集,实现了遥感红外图像的特征选择.为了验证此算法特征选择的有效性,设计了RBF网络分类器,对遥感红外图像进行分类识别,其结果证明,基于最小熵和遗传算法所得到的特征子集可以简化网络结构,减少训练时间,提高样本的识别概率. 相似文献

20.

A multimodal temporal panorama approach for moving vehicle detection,reconstruction and classification

Tao Wang Zhigang Zhu Clark N. Taylor 《Computer Vision and Image Understanding》2013,117(12):1724-1735

Moving vehicle detection and classification using multimodal data is a challenging task in data collection, audio-visual alignment, data labeling and feature selection under uncontrolled environments with occlusions, motion blurs, varying image resolutions and perspective distortions. In this work, we propose an effective multimodal temporal panorama approach for moving vehicle detection and classification using a novel long-range audio-visual sensing system. A new audio-visual vehicle (AVV) dataset is created, which features automatic vehicle detection and audio-visual alignment, accurate vehicle extraction and reconstruction, and efficient data labeling. In particular, vehicles’ visual images are reconstructed once detected in order to remove most of the occlusions, motion blurs, and variations of perspective views. Multimodal audio-visual features are extracted, including global geometric features (aspect ratios, profiles), local structure features (HOGs), as well various audio features (MFCCs, etc.). Using radial-based SVMs, the effectiveness of the integration of these multimodal features is thoroughly and systematically studied. The concept of MTP may not be only limited to visual, motion and audio modalities; it could also be applicable to other sensing modalities that can obtain data in the temporal domain. 相似文献