期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王欣雨刘慧朱积成盛玉瑞张彩明《图学学报》2024,(1):65-77

多模态医学图像融合旨在利用跨模态图像的相关性和信息互补性,以增强医学图像在临床应用中的可读性和适用性。然而,现有手工设计的模型无法有效地提取关键目标特征,从而导致融合图像模糊、纹理细节丢失等问题。为此,提出了一种新的基于高低频特征分解的深度多模态医学图像融合网络,将通道注意力和空间注意力机制引入融合过程,在保持全局结构的基础上保留了局部纹理细节信息,实现了更加细致的融合。首先,通过预训练模型VGG-19提取两种模态图像的高频特征,并通过下采样提取其低频特征,形成高低频中间特征图。其次,在特征融合模块嵌入残差注意力网络,依次从通道和空间维度推断注意力图,并将其用来指导输入特征图的自适应特征优化过程。最后,重构模块形成高质量特征表示并输出融合图像。实验结果表明,该算法在Harvard公开数据集和自建腹部数据集峰值信噪比提升8.29%,结构相似性提升85.07%,相关系数提升65.67%,特征互信息提升46.76%,视觉保真度提升80.89%。相似文献

2.

基于双残差超密集网络的多模态医学图像融合

王丽芳王蕊芳蔺素珍秦品乐高媛张晋《计算机科学》2021,48(2):160-166

针对基于残差网络和密集网络的图像融合方法存在网络中间层的部分有用信息丢失和融合图像细节不清晰的问题,提出了基于双残差超密集网络(Dual Residual Hyper-Densely Networks,DRHDNs)的多模态医学图像融合方法。DRHDNs分为特征提取和特征融合两部分。特征提取部分通过将超密集连接与残差学习相结合,构造出双残差超密集块,用于提取特征,其中超密集连接不仅发生在同一路径的层之间,还发生在不同路径的层之间,这种连接使特征提取更充分,细节信息更丰富,并且对源图像进行了初步的特征融合。特征融合部分则进行最终的融合。通过实验将其与另外6种图像融合方法对4组脑部图像进行了融合比较,并根据4种评价指标进行了客观比较。结果显示,DRHDNs在保留细节、对比度和清晰度等方面都有很好的表现,其融合图像细节信息丰富并且清晰,便于疾病的诊断。相似文献

3.

生成对抗网络与文本图像生成方法综述

赖丽娜米瑜周龙龙饶季勇徐天阳宋晓宁《计算机工程与应用》2023,(19):21-39

随着多传感器的普及,多模态数据获得科研和产业面的持续关注,通过深度学习来处理多源模态信息的技术是核心所在。文本生成图像是多模态技术的方向之一,由于生成对抗网络（GAN）生成图像更具有真实感,使得文本图像生成取得卓越进展。它可用于图像编辑和着色、风格转换、物体变形、照片增强等多个领域。将基于图像生成功能的GAN网络分为四大类：语义增强GAN、可增长式GAN、多样性增强GAN、清晰度增强GAN,并根据分类法提供的方向将基于功能的文本图像生成模型进行整合比较,厘清脉络;分析了现有的评估指标以及常用的数据集,阐明了对复杂文本的处理等方面的可行性以及未来的发展趋势;系统性地补充了生成对抗网络在文本图像生成方面的分析,将有助于研究者进一步推进这一领域。相似文献

4.

基于增量预训练和对抗训练的文本匹配模型

司志博文李少博单丽莉孙承杰刘秉权《计算机系统应用》2022,31(11):349-357

文本匹配是自然语言理解的关键技术之一,其任务是判断两段文本的相似程度.近年来随着预训练模型的发展,基于预训练语言模型的文本匹配技术得到了广泛的应用.然而,这类文本匹配模型仍然面临着在某一特定领域泛化能力不佳、语义匹配时鲁棒性较弱这两个挑战.为此,本文提出了基于低频词的增量预训练及对抗训练方法来提高文本匹配模型的效果.本文通过针对领域内低频词的增量预训练,帮助模型向目标领域迁移,增强模型的泛化能力;同时本文尝试多种针对低频词的对抗训练方法,提升模型对词级别扰动的适应能力,提高模型的鲁棒性.本文在LCQMC数据集和房产领域文本匹配数据集上的实验结果表明,增量预训练、对抗训练以及这两种方式的结合使用均可明显改善文本匹配结果. 相似文献

5.

多模态预训练模型综述

王惠茹李秀红李哲马春明任泽裕杨丹《计算机应用》2023,(4):991-1004

预训练模型（PTM）通过利用复杂的预训练目标和大量的模型参数,可以有效地获得无标记数据中的丰富知识。而在多模态中,PTM的发展还处于初期。根据具体模态的不同,将目前大多数的多模态PTM分为图像-文本PTM和视频-文本PTM;根据数据融合方式的不同,还可将多模态PTM分为单流模型和双流模型两类。首先,总结了常见的预训练任务和验证实验所使用的下游任务;接着,梳理了目前多模态预训练领域的常见模型,并用表格列出各个模型的下游任务以及模型的性能和实验数据比较;然后,介绍了M6(Multi-Modality to Multi-Modality Multitask Megatransformer)模型、跨模态提示调优（CPT）模型、VideoBERT(VideoBidirectionalEncoderRepresentationsfrom Transformers)模型和AliceMind(Alibaba’s collection of encoder-decoders from Mind)模型在具体下游任务中的应用场景;最后,总结了多模态PTM相关工作面临的挑战以及未来可能的研究方向。相似文献

6.

基于预测对抗网络的图像二分类模型

余筝韵李春《计算机系统应用》2023,32(10):275-283

正未标记学习仅使用无标签样本和正样本训练一个二分类器, 而生成式对抗网络(generative adversarial networks, GAN)中通过对抗性训练得到一个图像生成器. 为将GAN的对抗训练方法迁移到正未标记学习中以提升正未标记学习的效果, 可将GAN中的生成器替换为分类器C, 在无标签数据集中挑选样本以欺骗判别器D, 对C与D进行迭代优化. 本文提出基于以Jensen-Shannon散度(JS散度)为目标函数的JS-PAN模型. 最后, 结合数据分布特点及现状需求, 说明了PAN模型在医疗诊断图像二分类应用的合理性及高性能. 在MNIST, CIFAR-10数据集上的实验结果显示: KL-PAN模型与同类正未标记学习模型对比有更高的精确度(ACC)及F1-score; 对称化改进后, JS-PAN模型在两个指标上均有所提升, 因此JS-PAN模型的提出更具有合理性. 在Med-MNIST的3个子图像数据集上的实验显示: KL-PAN模型与4个benchmark有监督模型有几乎相同的ACC, JS-PAN也有更高表现. 因此, 综合PAN模型的出色分类效果及医疗诊断数据的分布特征, PAN作为半监督学习方法可获得更快、更好的效果, 在医学图像的二分类的任务上具有更高的性能. 相似文献

7.

多模态信息处理前沿综述:应用、融合和预训练

吴友政李浩然姚霆何晓冬《中文信息学报》2022,36(5):1-20

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。相似文献

8.

视觉语言多模态预训练综述

下载免费PDF全文

张浩宇王天保李孟择赵洲浦世亮吴飞《中国图象图形学报》2022,27(9):2652-2682

在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。相似文献

9.

结合双编码器与对抗训练的图像修复

李健孙大松张备伟《计算机工程与应用》2021,57(7):192-197

为了解决图像修复过程中破损区域信息丢失问题并实现图像中任意破损区域的修复,设计了双编码器模型,独立地对掩模和图像进行编码,利用掩模特征重建图像,减少掩模信息的损失,添加跳跃连接补充因下采样丢失的图像信息并加速网络的收敛,引入对抗训练提高重建图像的质量.在places2数据集上进行的训练和测试结果表明,该方法的图像修复效... 相似文献

10.

视觉语言预训练综述

殷炯张哲东高宇涵杨智文李亮肖芒孙垚棋颜成钢《软件学报》2023,34(5):2000-2023

近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能. 相似文献

11.

基于特征融合注意网络的图像超分辨率重建 总被引：1，自引：1，他引：0

周登文马路遥田金月孙秀秀《自动化学报》2022,48(9):2233-2241

近年来, 基于深度卷积神经网络的单图像超分辨率重建, 取得了显著的进展, 但是, 仍然存在诸如特征利用率低、网络参数量大和重建图像细节纹理模糊等问题. 我们提出了基于特征融合注意网络的单图像超分辨率方法, 网络模型主要包括特征融合子网络和特征注意子网络. 特征融合子网络可以更好地融合不同深度的特征信息, 以及增加跨通道的学习能力; 特征注意子网络则着重关注高频信息, 以增强边缘和纹理. 实验结果表明: 无论是主观视觉效果, 还是客观度量, 我们方法的超分辨率性能明显优于其他代表性的方法. 相似文献

12.

基于双尺度特征融合的单幅图像去雾网络

兰云伟崔智高苏延召汪波王念李艾华《计算机工程》2022,48(11):231-239

基于深度学习的图像去雾方法在合成数据集上表现良好,但在真实场景中应用时存在去雾不彻底、颜色失真等问题。提出一种新的单幅图像去雾网络,该网络包含特征提取、特征融合2个模块。在特征提取模块中,通过残差密集块和具有空间注意机制的特征提取块分别提取图像的局部特征和全局特征。在特征融合模块中,利用通道注意力机制对局部特征图和全局特征图进行通道加权,并通过卷积操作融合加权后的局部特征图与全局特征图。最后,采用门控网络自适应结合3个不同深度的融合特征图,以恢复高质量的去雾图像。实验结果表明,所提网络在室内数据集下的峰值信噪比(PSNR)和结构相似度（SSIM）分别为33.04 dB、0.983,在HAZERD数据集下的PSNR和SSIM分别比GridDehazeNet网络高出1.33 dB和0.041。同时,该网络的模型参数量和浮点运算数分别为0.34M和16.06×109frame/s,具有较低复杂度,对合成图像和真实图像均可取得理想的去雾效果。相似文献

13.

基于GAN先验的图像补全方法

卢世杰郝文宁余晓晗于坤《计算机系统应用》2022,31(10):397-403

设计和利用良好的图像先验知识是解决图像补全问题的重要方式.生成对抗网络(GAN)作为一种优秀的生成式模型,其生成器可以从大型图像数据集中学习到丰富的图像语义信息,将预训练GAN模型作为图像先验是一种好的选择.为了利用预训练GAN模型更好地解决图像补全问题,本文在使用多个隐变量的基础上,在预训练生成器中间层同时对通道和特征图添加自适应权重,并在训练过程中微调生成器参数.最后通过图像重建和图像补全实验,定性和定量分析相结合,证实了本文提出的方法可以有效地挖掘预训练模型的先验知识,进而高质量地完成图像补全任务. 相似文献

14.

结合模型集成与特征融合的图像拷贝检测

下载免费PDF全文

武光华张旭东葛维孙鸽毛财胜《计算机工程与应用》2020,56(20):199-205

基于内容的图像拷贝检测关键在于提取的图像特征能够针对不同形式的图像拷贝攻击具有不变性。现实中拷贝攻击手段变化多样,且存在很多相似图像的干扰,目前并没有任何一种图像特征可以对抗所有不同形式的图像攻击。现有方法虽然在图像特征表示上做了很多改进,但都局限于单个特征表示。因此从特征融合的角度对提取特征进行增强,基于卷积神经网络融合图像高层特征以及低层特征以实现特征多样性,集成ImageNet预训练分类模型以及提出的距离度量模型以实现特征互补性。度量模型针对该类问题在预训练模型的基础上通过学习合适的距离度量来对抗由于图像编辑引起的特征差异,拉近拷贝图像与原始图像在特征空间的距离。实验结果表明,结合模型集成和多层深度特征融合的方式可以有效增强特征的鲁棒性,相比单一特征的检测效果提升十分明显。相似文献

15.

基于边缘图与多尺度特征融合的图像修复

黄健王虎赵小飞《计算机系统应用》2024,33(4):215-225

针对现有的图像修复方法在面对大规模图像缺损和不规则破损区域修复时,修复结果出现生成结构与原图像语义不符以及纹理细节模糊等问题,本文提出一种利用生成边缘图的多尺度特征融合图像修复算法——MSFGAN(multi-scale feature network model based on edge condition).模型采用两阶段网络设计,使用边缘图作为修复条件对修复结果进行结构约束.首先,使用Canny算子提取待修复图像的边缘图进行完整边缘图生成;然后利用完整的边缘图结合待修复图像进行图像修复.为了弥补图像修复算法中经常出现的问题,提出一种融入了注意力机制的多尺度特征融合模块(attention mechanism multi-fusion convolution block, AM block),实现受损图像的特征提取和特征融合.在图像修复网络解码器部分引入跳跃链接,将高级语义提取和底层特征进行融合实现高质量细节纹理修复.在CelebA和Places2数据集上的测试结果显示, MSFGAN修复质量上比当前修复方法有一定提升,其中在20%–30%掩码比例中, SSIM平均提升0.029... 相似文献

16.

抗混叠轮廓波HMT模型的医学图像融合 总被引：2，自引：0，他引：2

下载免费PDF全文

金炜励金祥杨任尔《中国图象图形学报》2010,15(2):321-327

为了更好地对医学图像进行融合,提出了一种利用抗混叠轮廓波HMT模型的图像融合新算法。该算法首先对原始轮廓波变换的频谱混叠问题展开研究,明确LP分解中的两个低通滤波器不满足Nyquist抽样定律是造成混叠的主要原因。接着,在对低通滤波器考虑带限约束条件下,设计了一种能抑制混叠的利用双通道滤波器组结构的多尺度分解方案,用于代替原始轮廓波变换的LP分解,结合方向滤波器组,实现了一种抗混叠的轮廓波变换。在此基础上,提出一种采用隐马尔可夫树（HMT）来刻划变换系数尺度间相关性的医学图像成像模型,并以期望最大化算法估计模型参数,得到融合图像。CT与MR图像以及MR-T1与MR-T2图像的融合实验表明,该算法的融合结果无论在视觉质量及定量指标上都明显优于基于小波变换和原始轮廓波变换的方法。相似文献

17.

特征融合生成对抗网络的水下图像增强

范新南杨鑫史朋飞韩松辛元雪《计算机辅助设计与图形学学报》2022,34(2):264-272

针对水下图像对比度低和颜色失真等问题,提出一种特征融合生成对抗网络的水下图像增强算法.首先,对水下退化图像进行颜色校正,并以卷积神经网络提取颜色校正后图像的特征;其次,以基于U-Net的特征提取网络提取水下退化图像特征,并将其与颜色校正图像的特征融合;最后,通过卷积神经网络完成融合特征到增强图像的重构.在Underwa... 相似文献

18.

基于条件生成对抗网络的图像着色研究

下载免费PDF全文

罗敦浪蒋旻袁琳君江佳俊郭嘉《计算机工程与应用》2021,57(13):193-198

随着多媒体技术的发展,诸如黑白照片着色、医学影像渲染和手绘图上色等各种图像着色应用需求逐渐增多.传统着色算法大部分存在着色模式单一、在处理部分数据时着色效果不佳或者依赖人工输入信息等缺点,对此,设计了一种条件生成对抗网络和颜色分布预测模型相结合的图像着色方法.由生成对抗网络生成着色图像,并通过预测模型的预测值来对生成器... 相似文献

19.

基于卷积神经网络模型的医学图像融合

下载免费PDF全文

李雨晨黄永东《计算机工程与应用》2022,58(15):229-237

提出了一种新的基于卷积神经网络（CNN）和加权最小二乘法（WLS）的医学图像融合算法。算法主要步骤如下：利用滚动导向滤波（RGF）和高斯滤波（GF）构成的混合多尺度分解工具将源图像分解为基础层和一系列细节层,从而能够更好地保留尺度信息和边缘信息。基于卷积神经网络给出基础层融合规则,该规则能够更好地提取图像特征,使融合图像能够很好继承源图像结构信息、能量信息和强度信息。利用绝对值取大规则和加权最小二乘法优化策略,对细节层进行融合,使融合图像中包含更多的视觉细节信息和具有更高对比度。实验结果表明所提算法在视觉评价和客观评价方面与其他算法相比具有较好的优势,且在急性中风、致命性中风和脑膜瘤这三类疾病图像融合效果更为突出。相似文献

20.

基于自适应特征融合的小样本细粒度图像分类

下载免费PDF全文

解耀华章为川任劼景军锋《计算机工程与应用》2023,59(3):184-192

现有的小样本学习算法未能充分提取细粒度图像的特征,导致细粒度图像分类准确率较低。为了更好地对基于度量的小样本细粒度图像分类算法中提取的特征进行建模,提出了一种基于自适应特征融合的小样本细粒度图像分类算法。在特征提取网络上设计了一种自适应特征融合嵌入网络,可以同时提取深层的强语义特征和浅层的位置结构特征,并使用自适应算法和注意力机制提取关键特征。在训练特征提取网络上采用单图训练和多图训练方法先后训练,在提取样本特征的同时关注样本之间的联系。为了使得同一类的特征向量在特征空间中的距离更加接近,不同类的特征向量的距离更大,对所提取的特征向量做特征分布转换、正交三角分解和归一化处理。提出的算法与其他9种算法进行实验对比,在多个细粒度数据集上评估了5 way 1 shot的准确率和5 way 5 shot的准确率。在Stanford Dogs数据集上的准确率提升了5.27和2.90个百分点,在Stanford Cars数据集上的准确率提升了3.29和4.23个百分点,在CUB-200数据集上的5 way 1 shot的准确率只比DLG略低0.82个百分点,但是5 way 5 shot上提升了1.55个百分点。相似文献