共查询到10条相似文献,搜索用时 15 毫秒
1.
融合文本和图像的多模态信息相对于单模态可以提升灾害事件分析准确率。但是已有的工作多数将文本特征和图片特征进行简单的融合,在提取、融合特征的时候造成特征的冗余,同时忽略了模态之间的联系,没有考虑到图像和文本之间特征的相关性。为此,本文分析和研究目前流行的多模态融合算法,提出一种拥抱融合的多模态灾害事件分析算法。首先将文本特征和图像的特征向量互相对比,考虑文本和图像特征之间的相关性。然后基于多项抽样,剔除冗余的特征,融合文本特征和图像特征。实验结果表明,拥抱融合在Crisis MMD2.0数据集上实验1的2个任务的分类效果准确率分别高达88.2%、85.1%,都明显优于其他多模态融合模型,表明了该模型的有效性。同时第2个实验也验证了拥抱模型对于不同文本和图像深度学习模型的适用性。 相似文献
2.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能.多模态表示和多模态融合是多模态机器学习的2个关键任务.目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感.因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法.首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数.在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法.在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,... 相似文献
3.
在现有的红外和可见光图像融合方法中,融合图像中的细节信息丢失严重,视觉效果不佳.针对上述问题,文中提出基于差异双分支编码器的多阶段图像融合方法.通过两支不同结构的编码器提取多模态图像的特征,增强特征的多样性.设计多阶段的融合策略,实现精细化图像融合.首先,在差异双分支编码器中,对两个编码分支提取的差异性特征进行初级融合.然后,在融合阶段,对多模态图像的显著性特征进行中级融合.最后,使用远程横向连接将差异双分支编码器的浅层特征传送给解码器,同时指导融合过程和图像重建.对比实验表明,文中算法可增强融合图像的细节信息,并在视觉效果和客观评价上都较优. 相似文献
4.
目的 针对现有图像转换方法的深度学习模型中生成式网络(generator network)结构单一化问题,改进了条件生成式对抗网络(conditional generative adversarial network,CGAN)的结构,提出了一种融合残差网络(ResNet)和稠密网络(DenseNet)两种不同结构的并行生成器网络模型。方法 构建残差、稠密生成器分支网络模型,输入红外图像,分别经过残差、稠密生成器分支网络各自生成可见光转换图像,并提出一种基于图像分割的线性插值算法,将各生成器分支网络的转换图像进行融合,获取最终的可见光转换图像;为防止小样本条件下的训练过程中出现过拟合,在判别器网络结构中插入dropout层;设计最优阈值分割目标函数,在并行生成器网络训练过程中获取最优融合参数。结果 在公共红外-可见光数据集上测试,相较于现有图像转换深度学习模型Pix2Pix和CycleGAN等,本文方法在性能指标均方误差(mean square error,MSE)和结构相似性(structural similarity index,SSIM)上均取得显著提高。结论 并行生成器网络模型有效融合了各分支网络结构的优点,图像转换结果更加准确真实。 相似文献
5.
6.
为有效提取和融合表情多粒度特征信息,降低自然场景人脸表情数据集存在不确定性和错误数据等因素致使准确率难以满足现实需求的问题,基于深度卷积神经网络提出多粒度与自修复融合的表情识别模型。采用拼图生成器生成不同粒度图像,利用渐进式的训练过程学习不同粒度图像之间互补的特征信息,采用自修复方法避免网络过度拟合错误样本图像,对错误样本进行重新标注。在AffectNet数据集和RAF-DB数据集上准确率分别达到了63.94%和87.10%,实验结果表明,该模型具有较高的准确率和良好的鲁棒性。 相似文献
7.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。 相似文献
8.
深度学习方法促使多模态虚假新闻检测领域快速发展,现有的检测模型通常从全局角度学习新闻图文间的跨模态语义关联,并利用共享语义内容获取检测的关键信息.然而,新闻内部的局部语义差异可能会限制模型有效利用跨模态语义关联的能力,其中潜在的非共享语义内容作为重要线索能够有效揭示虚假新闻的篡改意图和目的.为了解决上述问题,本文提出了一种双分支线索深度感知与自适应协同优化的多模态虚假新闻检测模型.该模型首先从图像显著区域和文本语义单词中提取细粒度的新闻特征,并使用跨模态加权残差网络从中学习共享语义线索.同时,根据所有图像区域和文本单词之间的语义相关性,双分支图文线索感知模块显式地建模共享与非共享语义内容的语义关联.其中,线索关联优化分支对两类语义内容的关联边界持续迭代优化,促使模型准确区分非共享语义线索;线索关联分析分支刻画两类语义内容的可信程度,并在此基础上引导模型实现线索的自主融合.通过上述自适应协同优化框架,本文提出的模型能够在复杂新闻语境下进行线索的深度感知与融合,实现更准确、更可解释的多模态虚假新闻检测.在广泛使用的中英文真实数据集上的实验结果表明,本文提出的模型明显优于基线方法,在准确率和... 相似文献
9.
10.
为了更精确、全面地表征各时期肺部医学影像中病灶特征的变化与发展规律,研究在时间纵向维度上预测肺结节的演变方式,构建了一种多模态特征融合下不同时期肺部病灶良恶性预测模型。根据病人不同时期的序列CT图像,提取肺部病灶的传统特征与深度特征,构造多模态特征;通过神经网络对多模态特征进行相关性快速融合;利用长短时记忆方法学习不同时期具有时间特征的肺部病灶特征向量,构建一个双向长短时记忆网络对病灶进行良恶性预测。实验表明,所提方法准确率为92.8%,比传统方法有所提高,可以实现有效预测。 相似文献