首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
图像事件描述是根据图像特征数据再结合自然语言处理技术,输出图像事件的语句描述的技术.图像事件的描述,对图片分类、查询等有着极高效率,为了达到更精确的描述效果,本文提出基于深度残差注意力的图像事件描述方法.该方法以ResNet的网络结构为基础,联合分离出的全局注意力与局部注意力,关注图像事件中心事件,生成图像事件描述.在...  相似文献   

2.
针对现有基于视觉注意力和基于文本注意力的图像描述自动生成模型无法同时兼顾描述图像细节和整体图像的问题,提出了一种基于演化深度学习的图像描述生成模型(evolutionary deep learning model for image captioning, EDLMIC),该模型是一种包含图像编码器、演化神经网络和自适应融合解码器三个子模块的图像描述自动生成模型,能够有效地融合视觉信息和文本信息,自动计算这两种信息在每个时间步所占的比例,从而基于融合的视觉文本信息更好地生成给定图像的相关描述。在Flickr30K和COCO2014两个公开数据集的实验结果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四个指标均优于其他基线模型,并且在多种不同的生活场景中具有较好的性能。  相似文献   

3.
医学图像分析深度学习方法研究与挑战   总被引:5,自引:0,他引:5  
深度学习(Deep learning,DL),特别是深度卷积神经网络(Convolutional neural networks,CNNs),能够从医学图像大数据中自动学习提取隐含的疾病诊断特征,近几年已迅速成为医学图像分析研究热点.本文首先简述医学图像分析特点;其次,论述深度学习基本原理,总结深度CNNs在医学图像分析中的分类、分割框架;然后,分别论述深度学习在医学图像分类、检测、分割等各应用领域的国内外研究现状;最后,探讨归纳医学图像分析深度学习方法挑战及其主要应对策略和开放的研究方向.  相似文献   

4.
深度学习的迅速发展使得图像描述效果得到显著提升,针对基于深度神经网络的图像描述方法及其研究现状进行详细综述.图像描述算法结合计算机视觉和自然语言处理的知识,根据图像中检测到的内容自动生成自然语言描述,是场景理解的重要部分.图像描述任务中,一般采用由编码器和解码器组成的基本架构.改进编码器或解码器,应用生成对抗网络、强化...  相似文献   

5.
6.
7.
图像融合技术旨在将不同源图像中的互补信息整合到单幅融合图像中以全面表征成像场景,并促进后续的视觉任务。随着深度学习的兴起,基于深度学习的图像融合算法如雨后春笋般涌现,特别是自编码器、生成对抗网络以及Transformer等技术的出现使图像融合性能产生了质的飞跃。本文对不同融合任务场景下的前沿深度融合算法进行全面论述和分析。首先,介绍图像融合的基本概念以及不同融合场景的定义。针对多模图像融合、数字摄影图像融合以及遥感影像融合等不同的融合场景,从网络架构和监督范式等角度全面阐述各类方法的基本思想,并讨论各类方法的特点。其次,总结各类算法的局限性,并给出进一步的改进方向。再次,简要介绍不同融合场景中常用的数据集,并给出各种评估指标的具体定义。对于每一种融合任务,从定性评估、定量评估和运行效率等多角度全面比较其中代表性算法的性能。本文提及的算法、数据集和评估指标已汇总至https://github.com/Linfeng-Tang/Image-Fusion。最后,给出了本文结论以及图像融合研究中存在的一些严峻挑战,并对未来可能的研究方向进行了展望。  相似文献   

8.
目的 图像修复是计算机视觉领域研究的一项重要内容,其目的是根据图像中已知内容来自动地恢复丢失的内容,在图像编辑、影视特技制作、虚拟现实及数字文化遗产保护等领域都具有广泛的应用价值。而近年来,随着深度学习在学术界和工业界的广泛研究,其在图像语义提取、特征表示、图像生成等方面的应用优势日益突出,使得基于深度学习的图像修复方法的研究成为了国内外一个研究热点,得到了越来越多的关注。为了使更多研究者对基于深度学习的图像修复理论及其发展进行探索,本文对该领域研究现状进行综述。方法 首先对基于深度学习图像修复方法提出的理论依据进行分析;然后对其中涉及的关键技术进行研究;总结了近年来基于深度学习的主要图像修复方法,并依据修复网络的结构对现有方法进行了分类,即分为基于卷积自编码网络结构的图像修复方法、基于生成式对抗网络结构的图像修复方法和基于循环神经网络结构的图像修复方法。结果 在基于深度学习的图像修复方法中,深度学习网络的设计和训练过程中的损失函数的选择是其重要的内容,各类方法各有优缺点和其适用范围,如何提高修复结果语义的合理性、结构及细节的正确性,一直是研究者们努力的方向,基于此目的,本文通过实验分析总结了各类方法的主要特点、存在的问题、对训练样本的要求、主要应用领域及参考代码。结论 基于深度学习图像修复领域的研究已经取得了一些显著进展,但目前深度学习在图像修复中的应用仍处于起步阶段,主要研究的内容也仅仅是利用待修复图像本身的图像内容信息,因此基于深度学习的图像修复仍是一个极具挑战的课题。如何设计具有普适性的修复网络,提高修复结果的准确性,还需要更加深入的研究。  相似文献   

9.
细粒度图像分类旨在从某一类别的图像中区分出其子类别,通常细粒度数据集具有类间相似和类内差异大的特点,这使得细粒度图像分类任务更加具有挑战性.随着深度学习的不断发展,基于深度学习的细粒度图像分类方法表现出更强大的特征表征能力和泛化能力,能够获得更准确、稳定的分类结果,因此受到了越来越多研究人员的关注和研究.首先,从细粒度...  相似文献   

10.
目的 糖尿病性视网膜病变(DR)是目前比较严重的一种致盲眼病,因此,对糖尿病性视网膜病理图像的自动分类具有重要的临床应用价值。基于人工分类视网膜图像的方法存在判别性特征提取困难、分类性能差、耗时费力且很难得到客观统一的医疗诊断等问题,为此,提出一种基于卷积神经网络和分类器的视网膜病理图像自动分类系统。方法 首先,结合现有的视网膜图像的特点,对图像进行去噪、数据扩增、归一化等预处理操作;其次,在AlexNet网络的基础上,在网络的每一个卷积层和全连接层前引入一个批归一化层,得到一个网络层次更复杂的深度卷积神经网络BNnet。BNnet网络用于视网膜图像的特征提取网络,对其训练时采用迁移学习的策略利用ILSVRC2012数据集对BNnet网络进行预训练,再将训练得到的模型迁移到视网膜图像上再学习,提取用于视网膜分类的深度特征;最后,将提取的特征输入一个由全连接层组成的深度分类器将视网膜图像分为正常的视网膜图像、轻微病变的视网膜图像、中度病变的视网膜图像等5类。结果 实验结果表明,本文方法的分类准确率可达0.93,优于传统的直接训练方法,且具有较好的鲁棒性和泛化性。结论 本文提出的视网膜病理图像分类框架有效地避免了人工特征提取和图像分类的局限性,同时也解决了样本数据不足而导致的过拟合问题。  相似文献   

11.
图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑。图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性。本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结。针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法。此外,本文还分析了融合情感信息与个性化表达的图像描述方法。在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路。对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析。由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决。  相似文献   

12.
目的 由于缺乏图像与目标语言域的成对数据,现有的跨语言描述方法都是基于轴(源)语言转化为目标语言,由于转化过程中的语义噪音干扰,生成的句子存在不够流畅以及与图像视觉内容关联弱等问题,为此,本文提出了一种引入语义匹配和语言评价的跨语言图像描述模型。方法 首先,选择基于编码器—解码器的图像描述基准网络框架。其次,为了兼顾图像及其轴语言所包含的语义知识,构建了一个源域语义匹配模块;为了学习目标语言域的语言习惯,还构建了一个目标语言域评价模块。基于上述两个模块,对图像描述模型进行语义匹配约束和语言指导:1)图像&轴语言域语义匹配模块通过将图像、轴语言描述以及目标语言描述映射到公共嵌入空间来衡量各自模态特征表示的语义一致性。2)目标语言域评价模块依据目标语言风格,对所生成的描述句子进行语言评分。结果 针对跨语言的英文图像描述任务,本文在MS COCO(Microsoft common objects in context)数据集上进行了测试。与性能较好的方法相比,本文方法在BLEU(bilingual evaluation understudy)-2、BLEU-3、BLEU-4和METE...  相似文献   

13.
深度学习技术在医学图像分析领域发展得非常好,但医学图像注释成本高,使得深度学习技术在医学图像分析领域受到阻碍.主动学习算法是目前解决注释成本高的一个研究热点.文章介绍了在医学图像分析领域中采用主动深度学习降低注释成本的技术手段和方法,以便相关人员了解目前的研究进展.最后对主动学习方法仍存在的问题和发展趋势进行了总结和展...  相似文献   

14.
水下光学图像可以提供直观丰富的海洋信息,近年来在海洋资源开发、环境保护和海洋工程等诸多领域发挥越来越重要的作用。但是受恶劣复杂的水下成像环境影响,水下光学图像普遍存在对比度低、图像模糊以及颜色失真等质量退化问题,严重制约水下智能处理系统的性能和应用。如何清晰地重建水下光学图像是国内外广泛关注的、具有挑战性的难点问题。随着深度学习技术的蓬勃发展,利用深度学习来提升水下图像质量成为当前的研究热点。鉴于目前国内在水下光学图像重建方面的研究综述较少,本文全面综述其研究进展。分析了水下图像退化机理,总结了现有水下成像模型以及水下图像重建的挑战;梳理了水下光学图像重建方法的发展历程,根据是否采用深度学习以及是否基于成像模型,将现有方法分为4大类,并按照研究发展顺序,依次介绍4类方法的基本思想,分析其优缺点;归纳了目前公开的水下图像数据集以及常用的水下图像质量评价方法,并对8种典型的水下图像重建方法进行了性能评测和对比分析;总结了该领域目前仍存在的问题,展望了后续研究方向,以便于相关研究人员了解该领域的研究现状,促进该领域的技术发展。  相似文献   

15.
目的 红外与可见光图像融合的目标是获得具有完整场景表达能力的高质量融合图像。由于深度特征具有良好的泛化性、鲁棒性和发展潜力,很多基于深度学习的融合方法被提出,在深度特征空间进行图像融合,并取得了良好的效果。此外,受传统基于多尺度分解的融合方法的启发,不同尺度的特征有利于保留源图像的更多信息。基于此,提出了一种新颖的渐进式红外与可见光图像融合框架(progressive fusion, ProFuse)。方法 该框架以U-Net为骨干提取多尺度特征,然后逐渐融合多尺度特征,既对包含全局信息的高层特征和包含更多细节的低层特征进行融合,也在原始尺寸特征(保持更多细节)和其他更小尺寸特征(保持语义信息)上进行融合,最终逐层重建融合图像。结果 实验在TNO(Toegepast Natuurwetenschappelijk Onderzoek)和INO(Institut National D’optique)数据集上与其他6种方法进行比较,在选择的6项客观指标上,本文方法在互信息(mutual Information, MI)上相比FusionGAN(generative adversarial ...  相似文献   

16.
目前大多数的图像风格迁移方法属于有监督学习,训练数据需要成对出现,并且在处理图像背景时,现有的方法过于繁琐。针对这些问题,提出了一种基于图像蒙板的无监督图像风格迁移方法。在实验中,采用了基于循环一致性的CycleGAN架构,并使用Inception-ResNet结构设计了一个全新的具有内置图像蒙板的生成式模型,最后通过无监督学习将图像的背景与学习到的抽象特征进行自动重组。实验表明,新方法有效地对图像背景和抽象特征进行自动分离与重组,同时解决了特征学习过程中的区域干扰问题,获得了可观的视觉效果。  相似文献   

17.
目的 红外图像在工业中发挥着重要的作用。但是由于技术原因,红外图像的分辨率一般较低,限制了其普遍适用性。许多低分辨率红外传感器都和高分辨率可见光传感器搭配使用,一种可行的思路是利用可见光传感器捕获的高分辨率图像,辅助红外图像进行超分辨率重建。方法 本文提出了一种使用高分辨率可见光图像引导红外图像进行超分辨率的神经网络模型,包含两个模块:引导Transformer模块和超分辨率重建模块。考虑到红外和可见光图像对一般存在一定的视差,两者之间是不完全对齐的,本文使用基于引导Transformer的信息引导与融合方法,从高分辨率可见光图像中搜索相关纹理信息,并将这些相关纹理信息与低分辨率红外图像的信息融合得到合成特征。然后这个合成特征经过后面的超分辨率重建子网络,得到最终的超分辨率红外图像。在超分辨率重建模块,本文使用通道拆分策略来消除深度模型中的冗余特征,减少计算量,提高模型性能。结果 本文方法在FLIR-aligned数据集上与其他代表性图像超分辨率方法进行对比。实验结果表明,本文方法可以取得优于对比方法的超分辨率性能。客观结果上,本文方法比其他红外图像引导超分辨率方法在峰值信噪比(pea...  相似文献   

18.
水下图像增强和修复算法综述   总被引:1,自引:0,他引:1  
因受到光线散射和吸收、水体杂质、人工光源等因素影响,水下成像质量较低,很难满足生产作业的需求,而水下图像的增强和复原技术有助于提升水下机器视觉的能力.为帮助研究者掌握水下图像处理领域的研究方法和现有技术,对水下图像增强和复原方法进行综述.首先对水下图像存在的主要退化类型进行分析;分别对水下图像增强、复原的经典方法和最新进展进行总结,系统梳理了水下图像质量评测体系和公开数据集;最后对水下图像处理未来的研究趋势进行了展望.  相似文献   

19.
在过去的几十年里,图像识别技术经历了迅速发展,并深刻地改变着人类社会的进程。发展图像识别技术的目的是通过减少人力劳动和增加便利来造福人类。然而,最近的研究和应用表明,图像识别系统可能会表现出偏见甚至歧视行为,从而对个人和社会产生潜在的负面影响。因此,图像识别的公平性研究受到广泛关注,避免图像识别系统可能给人们带来的偏见与歧视,才能使人完全信任该项技术并与之和谐相处。本文对图像识别的公平性研究进行了全面的梳理回顾。首先,简要介绍了偏见3个方面的来源,即数据不平衡、属性间的虚假关联和群体差异性;其次,对于常用的数据集和评价指标进行汇总;然后,将现有的去偏见算法划分为重加权(重采样)、图像增强、特征增强、特征解耦、度量学习、模型自适应和后处理7类,并分别对各类方法进行介绍,阐述了各方法的优缺点;最后,对该领域的未来研究方向和机遇挑战进行了总结和展望。整体而言,学术界对图像识别公平性的研究已经取得了较大的进展,然而该领域仍处于发展初期,数据集和评价指标仍有待完善,针对未知偏见的公平性算法有待研究,准确率和公平性的权衡困境有待突破,针对细分任务的独特发展趋势开始呈现,视频数据的去偏见算法逐渐受到关注。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号