共查询到19条相似文献,搜索用时 46 毫秒
1.
郭小宇;马静;陈杰 《计算机工程与应用》2025,(6):171-182
多模态特征表征是多模态任务的基础。为解决多模态特征表征方法融合层次单一、未能充分映射不同模态间的关联关系的问题,提出了一种多模态分级特征映射与融合表征方法。该方法在文本模型RoBERTa与图像模型DenseNet的基础上,从两个模型的中间层抽取由低级别到高级别的特征,基于特征重用的思想映射与融合文本与图像模态不同级别的特征,捕捉文本与图像模态之间的内部关联,充分融合两种模态之间的特征。将分级特征映射与融合表征馈入分类器,应用于多模态舆情的情感分类中,同时将构建的表征方法与基线表征方法进行对比分析。实验结果表明,提出的表征方法在微博舆情和MVSA-Multiple数据集上的情感分类性能均超越了所有基线模型,其中在微博数据集上F1值提升了0.013 7,在MVSA-Multiple数据集上F1值提升了0.022 2。图像特征能够提升文本单模态特征下的情感分类准确率,但是其提升程度与融合策略密切相关;多模态分级特征映射与融合表征方法能够有效映射文本与图像特征之间的关系,提升多模态舆情的情感分类效果。 相似文献
2.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性. 相似文献
3.
杜鹏举 《自动化与仪器仪表》2023,(10):23-26
对跨模态数据检索精确性问题,提出一种基于多模态数据融合的检索方法。采用CNN+Bi_LSTM与Glove+Bi_GRU的方法分别对图片和文本数据进行编码,并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征,使用同模态下与不同模态间的多种相似度损失函数,对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度,确定正确检索结果。实验证明,设计的多模态数据融合与检索模型,相较于其他跨模态搜索分类模型,辨别损失更低。且在模型各部分功能上,无论是引入LSTM的多模态特征提取模块,还是基于双尺度相似性计算的语义建模方法,都在数据检索中发挥了一定的作用,当k=12时,本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型,R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言,提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时,相较于LSCO、MADLG、D... 相似文献
4.
匹配分数是传统的融合分数指标,但是其不能很好地区分类内和类间数据,分类置信度虽然可以较好地将类内类间数据分开,但对于匹配分数仅次于分类阈值的数据,其分类效果不是很理想.因此,首先提出了一种基于分类距离分数的融合分数指标,其不仅携带一级分类信息,也含有匹配分数与分类阈值之间的距离信息,可增大融合后类内类间分数之间的距离,为融合算法提供了一个具有有效判别信息的特征融合集,提高了融合指标的利用率;进一步,利用信息熵表示信息价值多少的这一特性,定义特征关联系数和特征权重系数,并将加权融合和传统SUM规则统一在一个自适应算法框架中,提高了融合识别率.实验结果验证了所提出方法的有效性. 相似文献
5.
多模态情感分析是利用多种模态的主观信息对情感进行分析的一种多模态任务,探索模态间的有效交互是多模态分析中的一项重要研究.在最近的研究中发现,由于模态的学习速率不平衡,导致单个模态收敛时,其余模态仍处于欠拟合的状态,进而削弱了多模态协同决策的效果.为了能更有效地将多种模态结合,学习到更具有表达力的情感特征表示,提出一种基于自适应权值融合的多模态情感分析方法.所提方法分为两个阶段:第1个阶段是根据不同模态的学习梯度差异自适应地改变单模态特征表示的融合权值,实现动态调整模态学习速率的目的,把该阶段称为B融合(balanced fusion).第2个阶段是为了消除B融合的融合权值对任务分析的影响,提出模态注意力探究模态对任务的贡献,并根据贡献为各模态分配权重,把该阶段称为A融合(attention fusion).用于情感分析的多模态表示由B融合和A融合的结果共同组成.实验结果显示,将B融合方法引入现有的多模态情感分析方法中,能够有效提升现有方法对情感分析任务的分析准确度;消融实验结果显示,在B融合的基础上增加A融合方法能有效减小B融合权重对任务的影响,有利于提升情感分析任务的准确度.与现有的多模态情感分析模型相比,所提方法结构更简单、运算时间更少,且任务准确率优于对比模型,表明所提方法在多模态情感分析任务中的高效性和优异性能. 相似文献
6.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3 相似文献
7.
多模态数据间交互式任务的兴起对于综合利用不同模态的知识提出了更高的要求, 因此融合不同模态知识的多模态知识图谱应运而生. 然而, 现有多模态知识图谱存在图谱知识不完整的问题, 严重阻碍对信息的有效利用. 缓解此问题的有效方法是通过实体对齐进行知识图谱补全. 当前多模态实体对齐方法以固定权重融合多种模态信息, 在融合过程中忽略不同模态信息贡献的差异性. 为解决上述问题, 设计一套自适应特征融合机制, 根据不同模态数据质量动态融合实体结构信息和视觉信息. 此外, 考虑到视觉信息质量不高、知识图谱之间的结构差异也影响实体对齐的效果, 本文分别设计提升视觉信息有效利用率的视觉特征处理模块以及缓和结构差异性的三元组筛选模块. 在多模态实体对齐任务上的实验结果表明, 提出的多模态实体对齐方法的性能优于当前最好的方法. 相似文献
8.
在多模态深度学习发展前期总结当前多模态深度学习,发现在不同多模态组合和学习目标下,多模态深度学习实现过程中的共有问题,并对共有问题进行分类,叙述解决各类问题的方法。具体来说,从涉及自然语言、视觉、听觉的多模态学习中考虑了语言翻译、事件探测、信息描述、情绪识别、声音识别和合成以及多媒体检索等方面研究,将多模态深度学习实现过程中的共有问题分为模态表示、模态传译、模态融合和模态对齐四类,并对各类问题进行子分类和论述,同时列举了为解决各类问题产生的神经网络模型。最后论述了实际多模态系统、多模态深度学习研究中常用的数据集和评判标准,并展望了多模态深度学习的发展趋势。 相似文献
9.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。 相似文献
10.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能. 多模态表示和多模态融合是多模态机器学习的2个关键任务. 目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感. 因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法. 首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数. 在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法. 在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,该多模态学习方法在多个评价指标上优于基线方法. 相似文献
11.
在满足鲁棒性、独特性前提下,为了提高视频指纹系统紧凑性,提出一种端到端的深度度量学习视频指纹算法.网络整体框架由权值共享的三分支网络组成,分支网络采用改进的3D残差网络将多层特征融合并进行压缩,实现视频数据到指纹的端到端映射.网络目标函数由度量和分类双损失函数组成,其中,设计的边界约束三元组角度度量损失函数克服了普通三元组损失函数对特征相关性表达不足的问题;分类损失函数弥补了度量损失对样本特征整体分布不敏感的问题.在公开数据集FCVID上对文中算法、传统方法和深度方法进行了大量实验.结果表明,深度度量学习视频指纹算法在鲁棒性、独特性提高的同时紧凑性显著提高. 相似文献
12.
目的 图像的变化检测是视觉领域的一个重要问题,传统的变化检测对光照变化、相机位姿差异过于敏感,使得在真实场景中检测结果较差。鉴于卷积神经网络(convolutional neural networks,CNN)可以提取图像中的深度语义特征,提出一种基于多尺度深度特征融合的变化检测模型,通过提取并融合图像的高级语义特征来克服检测噪音。方法 使用VGG(visual geometry group)16作为网络的基本模型,采用孪生网络结构,分别从参考图像和查询图像中提取不同网络层的深度特征。将两幅图像对应网络层的深度特征拼接后送入一个编码层,通过编码层逐步将高层与低层网络特征进行多尺度融合,充分结合高层的语义和低层的纹理特征,检测出准确的变化区域。使用卷积层对每一个编码层的特征进行运算产生对应尺度的预测结果。将不同尺度的预测结果融合得到进一步细化的检测结果。结果 与SC_SOBS(SC-self-organizing background subtraction)、SuBSENSE(self-balanced sensitivity segmenter)、FGCD(fine-grained change detection)和全卷积网络(fully convolutional network,FCN)4种检测方法进行对比。与性能第2的模型FCN相比,本文方法在VL_CMU_CD(visual localization of Carnegie Mellon University for change detection)数据集中,综合评价指标F1值和精度值分别提高了12.2%和24.4%;在PCD(panoramic change detection)数据集中,F1值和精度值分别提高了2.1%和17.7%;在CDnet(change detection net)数据集中,F1值和精度值分别提高了8.5%和5.8%。结论 本文提出的基于多尺度深度特征融合的变化检测方法,利用卷积神经网络的不同网络层特征,有效克服了光照和相机位姿差异,在不同数据集上均能得到较为鲁棒的变化检测结果。 相似文献
13.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。 相似文献
14.
在伪装目标分割任务中,如何提取深度模型下高分辨率的目标语义特征是构建目标分割模型的关键。针对此问题,提出了一种基于多级特征融合的伪装目标分割方法。在特征编码过程中,引入多级门控模块对Res2Net-50的多级中间层特征进行选择性融合,有效过滤各级特征图的干扰信息;在解码过程中,通过自交互残差模块驱动不同尺度的编码特征实现交叉融合,获得更准确的目标表示信息。此外,在交叉熵损失的基础上加入Dice损失形成联合损失函数,帮助模型更精准地分割伪装目标。实验结果证明,在背景复杂的迷彩伪装数据集以及三个常用自然伪装数据集上,相比其他典型模型,该模型表现出更好的分割效果。 相似文献
15.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库(cheavd)2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。 相似文献
16.
17.
针对单模态细粒度分类方法难以区分图像间细微差异的问题,将多模态融合方法引入到细粒度分类任务中,充分利用多模态数据的相关性和互补性,提出了一种基于模态相关性学习的细粒度分类方法。该方法分为两个阶段,首先考虑到图像和文本数据之间的对应关系,利用它们的匹配程度作为约束来进行模型的预训练;接着,加载上一步得到的网络参数,先提取多模态特征,再利用文本特征指导图像特征的生成;最后,基于融合后的特征进行细粒度分类。该方法在UPMC-Food101、MEP-3M-MEATS和MEP-3M-OUTDOORS数据集上进行训练测试,分别达到91.13%、82.39%和93.17%的准确率。实验结果表明,该方法相对于传统的多模态融合方法具有更好的性能,是一种有效的细粒度分类方法。 相似文献
18.
目前,卷积神经网络已成为视觉对象识别的主流机器学习方法。有研究表明,网络层数越深,所提取的深度特征表征能力越强。然而,当数据集规模不足时,过深的网络往往容易过拟合,深度特征的分类性能将受到制约。因此,提出了一种新的卷积神经网络分类算法:并行融合网FD-Net。以网络融合的方式提高特征的表达能力,并行融合网首先组织2个相同的子网并行提取图像特征,然后使用精心设计的特征融合器将子网特征进行多尺度融合,提取出更丰富、更精确的融合特征用于分类。此外,采用了随机失活和批量规范化等方法协助特征融合器去除冗余特征,并提出了相应的训练策略控制计算开销。最后,分别以经典的ResNet、InceptionV3、DenseNet和MobileNetV2作为基础模型,在UECFOOD-100和Caltech101等数据集上进行了深入的研究和评估。实验结果表明,并行融合网能在有限的训练样本上训练出识别能力更强的分类模型,有效提高图像的分类准确率。 相似文献
19.