首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
随着医疗成像技术的不断提升,放射科医师每天要撰写的医学报告也与日俱增。深度学习兴起后,基于深度学习的医学图像描述技术用于自动生成医学报告,取得了显著效果。本文全面整理了近年来深度医学图像描述方向的论文,包括这一领域的最新方法、数据集和评价指标,分析了它们各自的优劣,并以模型结构为线索予以介绍,是国内首篇针对医疗图像描述任务的综述。现今的深度医疗图像描述技术主要以编码器—解码器结构为基础进行拓展,包括但不局限于加入检索方法、模板匹配方法、注意力机制、强化学习和知识图谱等方法。检索和模板匹配方法虽然简单,但由于医学报告的特殊性仍在本任务上有不错的效果;注意力机制使模型产生报告时能关注图像和文本的某一部分,已经被几乎所有主流模型所采用;强化学习方法突破了医疗图像描述任务中梯度下降训练法与离散的语言生成评价指标不匹配的瓶颈;知识图谱方法则融合了人类医生对于疾病的先验知识,有效提高了生成报告的临床准确性。此外,Transformer等新型结构也正越来越多地取代循环神经网络(recurrent neural network,RNN)甚至卷积神经网络(convolutional neural network,CNN)的位置成为网络主干。本文最后讨论了目前深度医疗图像描述仍需解决的问题以及未来的研究方向,希望能推动深度医疗图像描述技术真正落地。  相似文献   

2.
图像描述任务是利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句,实现从图像到文本的跨模态转换。随着深度学习技术的广泛应用,图像描述算法的精确度和推理速度都得到了极大提升。本文在广泛文献调研的基础上,将基于深度学习的图像描述算法研究分为两个层面,一是图像描述的基本能力构建,二是图像描述的应用有效性研究。这两个层面又可以细分为传递更加丰富的特征信息、解决暴露偏差问题、生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度等核心技术挑战。针对上述层面所对应的挑战,本文从注意力机制、预训练模型和多模态模型的角度分析了传递更加丰富的特征信息的方法,从强化学习、非自回归模型和课程学习与计划采样的角度分析了解决暴露偏差问题的方法,从图卷积神经网络、生成对抗网络和数据增强的角度分析了生成多样性的图像描述的方法,从内容控制和风格控制的角度分析了图像描述可控性的方法,从非自回归模型、基于网格的视觉特征和基于卷积神经网络解码器的角度分析了提升图像描述推理速度的方法。此外,本文还对图像描述领域的通用数据集、评价指标和已有算法性能进行了详细介绍,并对图像描述中待解决的问题与未来研究...  相似文献   

3.
为快速生成准确描述图片内容的语句,提出语义分割和卷积神经网络(convolutional neural network, CNN)相结合的图像描述方法。将图像分类模型和语义分割模型结合为编码器,增强对图像语义信息的利用,采用CNN代替长短时记忆网络(long short term memory, LSTM)作为解码器生成完整描述性语句。通过在MSCOCO数据集上与5种主流算法的对比实验可知,以CNN作为解码器能够大幅提高解码速度,语义信息的增强能够有效提高实验精度,验证了该方法的有效性和可行性。  相似文献   

4.
针对现有基于视觉注意力和基于文本注意力的图像描述自动生成模型无法同时兼顾描述图像细节和整体图像的问题,提出了一种基于演化深度学习的图像描述生成模型(evolutionary deep learning model for image captioning, EDLMIC),该模型是一种包含图像编码器、演化神经网络和自适应融合解码器三个子模块的图像描述自动生成模型,能够有效地融合视觉信息和文本信息,自动计算这两种信息在每个时间步所占的比例,从而基于融合的视觉文本信息更好地生成给定图像的相关描述。在Flickr30K和COCO2014两个公开数据集的实验结果表明,EDLMIC模型在METEOR、ROUGE-L、CIDEr和SPICE四个指标均优于其他基线模型,并且在多种不同的生活场景中具有较好的性能。  相似文献   

5.
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重点讨论了基于编码器-解码器架构的各种方法及其创新思路,如多模态空间、视觉空间、语义空间、注意机制、模型优化等.接着,从实验的角度给出图像描述生成的常用数据集和评估措施,并在2个基准数据集上比较了一些典型方法的性能.最后,以提升图像描述的准确性、完整性、新颖性、多样性为依据,展示了图像描述生成的未来发展趋势.  相似文献   

6.
图像的自然语言描述(image captioning)是一个融合计算机视觉、自然语言处理和机器学习的跨领域课题。它作为多模态处理的关键技术,近年来取得了显著成果。当前研究大多针对图像生成英文摘要,而对于中文摘要的生成方法研究较少。该文提出了一种基于多模态神经网络的图像中文摘要生成方法。该方法由编码器和解码器组成,编码器基于卷积神经网络,包括单标签视觉特征提取网络和多标签关键词特征预测网络,解码器基于长短时记忆网络,由多模态摘要生成网络构成。在解码过程中,该文针对长短时记忆网络的特点提出了四种多模态摘要生成方法CNIC-X、CNIC-H、CNIC-C和CNIC-HC。在中文摘要数据集Flickr8k-CN上实验,结果表明该文提出的方法优于现有的中文摘要生成模型。  相似文献   

7.
图像描述生成模型是使用自然语言描述图片的内容及其属性之间关系的算法模型.对现有模型描述质量不高、图片重要部分特征提取不足和模型过于复杂的问题进行了研究,提出了一种基于卷积块注意力机制模块(CBAM)的图像描述生成模型.该模型采用编码器-解码器结构,在特征提取网络Inception-v4中加入CBAM,并作为编码器提取图片的重要特征信息,将其送入解码器长短期记忆网络(LSTM)中,生成对应图片的描述语句.采用MSCOCO2014数据集中训练集和验证集进行训练和测试,使用多个评价准则评估模型的准确性.实验结果表明,改进后模型的评价准则得分优于其他模型,其中Model2实验能够更好地提取到图像特征,生成更加准确的描述.  相似文献   

8.
传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器,ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息.  相似文献   

9.
梅旭璋  江红  孙军 《计算机工程》2020,46(3):267-272,279
视网膜血管的结构信息对眼科疾病的诊断具有重要的指导意义,对视网膜血管图像进行高效正确的分割成为临床的迫切需求。传统的人工分割方法耗时较长且易受个人主观因素的影响,分割质量不高。为此,提出一种基于密集注意力网络的图像自动分割算法。将编码器-解码器全卷积神经网络的基础结构与密集连接网络相结合,以充分提取每一层的特征,在网络的解码器端引入注意力门模块,对不必要的特征进行抑制,提高视网膜血管图像的分割精度。在DRIVE和STARE眼底图像数据集上的实验结果表明,与其他基于深度学习的算法相比,该算法的敏感性、特异性、准确率和AUC值均较高,分割效果较好。  相似文献   

10.
雾是户外图像降质的主要因素之一,图像去雾旨在恢复有雾图像中的内容。基于图像底层特征和先验知识的传统算法去雾效果不稳定。针对以上问题,受深度学习理论的启发,提出一种端到端的两阶段去雾深度神经网络算法。将图像去雾和图像超分辨率重建相结合,先利用编码器-解码器预测低分辨率雾霾残留图像,再利用亚像素卷积和残差块重建出原始分辨率雾霾残留图像,最后预测出原始分辨率无雾图像。在合成和真实有雾图像上的实验表明,该算法在定量评价和定性评价中均优于对比算法。  相似文献   

11.
12.
13.
深度学习的方法在图像识别和自然语言处理等方面展示了优异的性能。将卷积神经网络(Convolution Neural Network,CNN)用于高分辨率遥感影像分类。针对CNN用于遥感影像分类使用固定大小窗口遍历时,影像采样窗口数量过多,导致的分类效率低下问题,提出一种基于影像区域特性的采样窗口确定方法,提高分类效率。影像分类包括两个阶段:首先,利用卷积神经网络得到的特征对影像进行分类;然后,采用支撑向量机对第一步分类由于特征区分性不足造成的错分地物类别进行再分类。采用具有不同特性的遥感影像对所提方法进行了验证,实验结果表明,同现有的特征表示和分类方法相比,该方法的性能有明显改善。  相似文献   

14.
图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。  相似文献   

15.
随着深度学习的不断发展与图像数据的爆炸式增长,如何使用深度学习来获得更高压缩比和更高质量的图像逐渐成为热点研究问题之一。通过对近几年相关文献的分析与整理,将基于深度学习的图像压缩方法按照卷积神经网络、循环神经网络、生成对抗网络进行总结与分析,对不同种方法分别列举了具有代表性的实例,并对基于深度学习的图像压缩算法的常用训练数据集、评价指标进行了介绍,根据深度学习在图像压缩领域中的优势对其未来的发展趋势进行了总结与讨论。  相似文献   

16.
近年来,集成学习(Ensemble Learning,EL)分类方法成为土地覆被分类的研究热点,尤其是Boosting集成分类方法具有分类精度高、泛化能力强,在土地覆被分类中得到了显著的应用。但是,Boosting集成分类方法对噪声很敏感,如果训练样本含有噪声时,Boosting算法可能会失效,这是该方法的局限性。为了解决Boosting集成方法在土地覆被分类中存在的问题,有效克服噪声的影响,减少分类结果中的“椒盐”现象和提高分类精度,提出了基于双树复小波分解的Boosting集成学习分类方法。该方法对影像的光谱波段进行一层双树复小波分解,降低图像的噪声,将分解后的各波段作为Boosting集成学习的输入,得到最终的分类结果。实验先后比较了GBDT、XGBoost、LightGBM 3种Boosting集成学习算法在SPOT 6和Sentinel-2A影像上的分类效果。结果表明:(1)在SPOT 6影像上,3种Boosting集成算法总体分类精度均高于90%;DTCWTLightGBM分类总体精度最高,达到94.73%,Kappa系数为0.93,比LightGBM总体精度提高了1.1%...  相似文献   

17.
杨全  彭进业 《计算机工程》2014,(4):192-197,202
为有效识别手语字母,提出一种手语视觉单词(SLVW)的识别方法。采用Kinect获取手语字母视频及其深度信息,在深度图像中,通过计算获得手语手势的主轴方向角和质心位置以调整搜索窗口,利用基于深度图像信息的DI_CamShift方法对手势进行跟踪,进而使用基于深度积分图像的Ostu方法分割手势,并提取其尺度不变特征变换数据。将局部特征描述子表示的图像小区域量化生成SLVW,统计一幅手语图像中的视觉单词频率,用词包模型表示手语字母,并用支持向量机进行识别。实验结果表明,该方法不受颜色、光照和阴影的干扰,具有较高的识别准确性和鲁棒性,对复杂背景手语视频中的30个手语字母的平均识别率达到96.21%。  相似文献   

18.
随着深度学习相关技术在计算机视觉、自然语言处理等领域的快速发展和广泛应用,深度学习模型逐渐成为了高价值攻击目标,其固有的易受噪声干扰的安全隐患也逐步暴露出来,如基于生成对抗网络(GAN)或机器学习的方式,通过添加少量特定的噪声来生成对抗样本,导致现有的深度学习模型失效.目前的对抗攻击技术一般针对特定深度学习模型,使用海...  相似文献   

19.
卷积神经网络(CNN)在半监督学习中取得了良好的成绩,其在训练阶段既利用有标记样本,也利用无标记样本帮助规范化学习模型。为进一步加强半监督模型的特征学习能力,提高其在图像分类时的性能表现,本文提出一种联合深度半监督卷积神经网络和字典学习的端到端半监督学习方法,称为Semi-supervised Learning based on Sparse Coding and Convolution(SSSConv);该算法框架旨在学习到鉴别性更强的图像特征表示。SSSConv首先利用CNN提取特征,并对所提取特征进行正交投影变换,下一步通过学习其稀疏编码的低维嵌入以得到图像的特征表示,最后据此进行分类。整个模型框架可进行端到端的半监督学习训练,CNN提取特征部分和稀疏编码字典学习部分具有统一的损失函数,目标一致。本文利用共轭梯度下降算法、链式法则和反向传播等算法对目标函数的参数进行优化,将稀疏编码的相关参数约束于流形上,CNN参数既可定义在欧氏空间,也可以进一步定义在正交空间中。基于半监督分类任务的实验结果验证了所提出SSSConv框架的有效性,与现有方法相比具有较强的竞争力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号