共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
人脸反欺骗技术可以准确判断捕获的人脸图像是真实人脸还是虚假人脸,是人脸识别系统安全的重要保障.传统的人脸反欺骗方法主要是利用手工设计的特征,如LBP、HoG、SIFT、SURF和DoG来刻画真实人脸和虚假人脸之间的不同特征分布,但人工设计的特征难以适应无约束环境下(如光照、背景的变化)的人脸反欺骗问题.鉴于此,该文提出... 相似文献
3.
随着当今信息技术的飞速发展;信息的存在形式多种多样;来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态;由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合;汲取不同模态的优点;完成对信息的整合。自然现象具有十分丰富的特征;单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求;如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构;总结了三个常见的融合模型;简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面;对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题;并提出未来的研究方向。 相似文献
4.
5.
膝关节磁共振成像(MRI)是诊断膝关节损伤的首选方法。然而,MRI影像的人工诊断是费时的,而且容易出现诊断错误。为了更准确地预测膝关节损伤,辅助临床医生做出诊断,提出一种多模态特征融合的深度学习模型,用于检测一般异常、前交叉韧带撕裂和半月板撕裂。提取梯度方向直方图(Histogram of Oriented Gradients, HOG)特征和局部二值模式(Local Binary Pattern,LBP)特征,经contact融合后利用PCA选取特征贡献度超过95%的特征作为传统特征;在VGG16模型的基础上加入金字塔融合的思想,将多个feature map的信息融合作为深度特征;将传统特征和深度特征经多层神经网络的能量模型进行相关性融合,作为多模态的特征,并得到预测概率。实验结果表明,上述模型在一般异常、前交叉韧带撕裂和半月板撕裂下ROC曲线下的面积(AUC)值分别为0.941?0、0.970?8和0.847?9,与传统特征和深度特征的效果相比,具有明显的优势,可以实现更有效的预测。 相似文献
6.
在信息物理融合系统中,通过部署在系统区域内的传感器节点来获得物理世界的信息。信息物理融合系统通常包含若干个异构的无线传感器网络。这些异构网络包含不同类型的传感器节点,这些节点具有不同的感知、计算和通信能力。将异构的传感器节点获得的不同类型的感知数据融合是一个十分重要并亟待解决的问题。在本文中,提出了基于多模态数据的事件模型,以事件为载体将多种不同模态的数据融合计算。文中描述并定义了信息物理融合系统中的事件,给出了基本事件和复合事件的定义,并提出了事件的合成规则。 相似文献
7.
融合文本和图像的多模态信息相对于单模态可以提升灾害事件分析准确率。但是已有的工作多数将文本特征和图片特征进行简单的融合;在提取、融合特征的时候造成特征的冗余;同时忽略了模态之间的联系;没有考虑到图像和文本之间特征的相关性。为此;本文分析和研究目前流行的多模态融合算法;提出一种拥抱融合的多模态灾害事件分析算法。首先将文本特征和图像的特征向量互相对比;考虑文本和图像特征之间的相关性。然后基于多项抽样;剔除冗余的特征;融合文本特征和图像特征。实验结果表明;拥抱融合在CrisisMMD2.0数据集上实验1的2个任务的分类效果准确率分别高达88.2%、85.1%;都明显优于其他多模态融合模型;表明了该模型的有效性。同时第2个实验也验证了拥抱模型对于不同文本和图像深度学习模型的适用性。 相似文献
8.
王子文;游进国;胡荣笙;贾连印 《小型微型计算机系统》2025,(4):825-832
现有多模态图神经网络推荐算法在进行多模态融合时,普遍使用图神经网络提取的节点特征进行融合,而未考虑到全局图结构信息和模态信息对融合的影响;并且现有的多模态融合方法大多只考虑模态间的差异,而忽视了模态内部的情况.对此,本文提出一种融合图神经网络的多模态微视频推荐算法(MCCF,Multi-modal Contrast-Conflict Fusion).该算法利用一种感知模态信息的注意力机制,将节点级特征转化为表征不同模态的图级特征;同时,分别使用节点级和图级特征表示,计算模态内“对比性”和模态间“冲突性”,客观评价了不同模态的重要性,实现了多模态融合.在Movielens和Tiktok两个微视频公开数据集上进行的实验表明,本文提出的算法在推荐性能上较基线方法有明显提升. 相似文献
9.
本文首先分析了流程行业应用场景从自动化向智能化转型升级所需要的条件,并从数据模态、模型特征、异构实现、工程化以及人员能力方面总结了工业智能应用面临的问题和挑战;其次,针对性地提出了多模态数据融合、机理模型数据驱动及专家异构整合、算法技能,符合用户习惯的工程化组态方式、不同人员协作方式等方案,并进一步给出了针对复杂工业场景的工具方案;最后,对智能优化控制、设备异常检测、多模态数据闭环控制等场景进行了分析,并总结展望了多模态异构算法组态工具在流程行业向智能化转型升级中的作用。 相似文献
10.
情感分析是一项新兴技术,其旨在探索人们对实体的态度,可应用于各种领域和场景,例如产品评价分析、舆情分析、心理健康分析和风险评估.传统的情感分析模型主要关注文本内容,然而一些特殊的表达形式,如讽刺和夸张,则很难通过文本检测出来.随着技术的不断进步,人们现在可以通过音频、图像和视频等多种渠道来表达自己的观点和感受,因此情感分析正向多模态转变,这也为情感分析带来了新的机遇.多模态情感分析除了包含文本信息外,还包含丰富的视觉和听觉信息,利用融合分析可以更准确地推断隐含的情感极性(积极、中性、消极).多模态情感分析面临的主要挑战是跨模态情感信息的整合,因此,重点介绍了不同融合方法的框架和特点,并对近几年流行的融合算法进行了阐述,同时对目前小样本场景下的多模态情感分析进行了讨论,此外,还介绍了多模态情感分析的发展现状、常用数据集、特征提取算法、应用领域和存在的挑战.期望此综述能够帮助研究人员了解多模态情感分析领域的研究现状,并从中得到启发,开发出更加有效的模型. 相似文献
11.
中文拼写纠错(CSC)的目标是检测和修正用户输入中文文本中的字或词级别的错误;这些错误通常是由于汉字之间的语义、字音或字形相似而导致的误用。然而;现有模型通常忽略了局部信息;无法充分捕捉不同汉字之间的字音和字形相似性;也无法有效地将这些信息与语义信息结合起来。为了解决这些问题;提出一种基于多模态信息融合的CSC算法PWSpell。该算法利用卷积注意力机制关注局部语义信息;利用拼音编码捕捉汉字之间的字音相似关系;并首次将五笔编码引入CSC领域;用于捕捉汉字之间的字形相似关系。此外;将这2种相似关系与经过BERT(Bidirectional Encoder Representation from Transformers)处理的语义信息进行选择性融合。实验结果表明;PWSpell在SIGHAN 2015测试集的检测级指标上准确率、精确率、F1值以及校正级指标精确率、F1值上均有提升;其中校正级的精确率至少提升了1个百分点;消融实验结果也验证了算法中各个模块的设计都能有效提升模型的性能。 相似文献
12.
多模态数据的指数级增长使得传统数据库在存储和检索方面遇到挑战,而多模态哈希通过融合多模态特征并映射成二进制哈希码,能够有效地降低数据库的存储开销并提高其检索效率.虽然目前已经有许多针对多模态哈希的工作取得了较好的效果,但是仍然存在着3个重要问题:(1)已有方法偏向于考虑所有样本都是模态完整的,然而在实际检索场景中,样本缺失部分模态的情况依然存在;(2)大多数方法都是基于浅层学习模型,这不可避免地限制了模型的学习能力,从而影响最终的检索效果;(3)针对模型学习能力弱的问题已提出了基于深度学习框架的方法,但是它们在提取各个模态的特征后直接采用了向量拼接等粗粒度特征融合方法,未能有效地捕获深层语义信息,从而弱化了哈希码的表示能力并影响最终的检索效果.针对以上问题,提出了PMH-F3模型.该模型针对样本缺失部分模态的情况,实现了部分多模态哈希.同时,基于深层网络架构,利用Transformer编码器,以自注意力方式捕获深层语义信息,并实现细粒度的多模态特征融合.基于MIRFlickr和MSCOCO数据集进行了充分实验并取得了最优的检索效果.实验结果表明:所提出的PMH-F3 相似文献
13.
在网络购物平台上,简洁、真实、有效的产品摘要对于提升购物体验至关重要.网上购物无法接触到产品实物,产品图像所含信息是除产品文本描述外的重要视觉信息,因此融合包括产品文本和产品图像在内的多模态信息的产品摘要对于网络购物具有重要的意义.针对融合产品文本描述和产品图像的问题,提出一种融合多模态信息的产品摘要抽取模型.与一般的产品摘要任务的输入只包含产品文本描述不同,该模型引入了产品图像作为一种额外的信息来源,使抽取产生的摘要更丰富.具体来说,首先对产品文本描述和产品图像分别使用预训练模型进行特征表示,从产品文本描述中提取每个句子的文本特征表示,从产品图像中提取产品整体的视觉特征表示;然后使用基于低阶张量的多模态融合方法将每个句子的文本特征和整体视觉特征进行模态融合,得到每个句子的多模态特征表示;最后将所有句子的多模态特征表示输入摘要生成器中以生成最终的产品摘要.在CEPSUM(Chinese E-commerce Product SUMmarization)2.0数据集上进行对比实验,在CEPSUM 2.0的3个数据子集上,该模型的平均ROUGE-1比TextRank高3.12个百分点,比BERTSUMExt(BERT SUMmarization Extractive)高1.75个百分点.实验结果表明,该模型融合产品文本和图像信息对于产品摘要是有效的,在ROUGE评价指标上表现良好. 相似文献
14.
15.
多模态机器学习是一种新的人工智能范式,结合各种模态和智能处理算法以实现更高的性能. 多模态表示和多模态融合是多模态机器学习的2个关键任务. 目前,多模态表示方法很少考虑样本间的协同,导致特征表示缺乏鲁棒性,大部分多模态特征融合方法对噪声数据敏感. 因此,在多模态表示方面,为了充分学习模态内和模态间的交互,提升特征表示的鲁棒性,提出一种基于样本内和样本间多模态协同的表示方法. 首先,分别基于预训练的BERT,Wav2vec 2.0,Faster R-CNN提取文本特征、语音特征和视觉特征;其次,针对多模态数据的互补性和一致性,构建模态特定和模态共用2类编码器,分别学习模态特有和共享2种特征表示;然后,利用中心矩差异和正交性构建样本内协同损失函数,采用对比学习构建样本间协同损失函数;最后,基于样本内协同误差、样本间协同误差和样本重构误差设计表示学习函数. 在多模态融合方面,针对每种模态可能在不同时刻表现出不同作用类型和不同级别的噪声,设计一种基于注意力机制和门控神经网络的自适应的多模态特征融合方法. 在多模态意图识别数据集MIntRec和情感数据集CMU-MOSI,CMU-MOSEI上的实验结果表明,该多模态学习方法在多个评价指标上优于基线方法. 相似文献
16.
知识图谱补全任务旨在根据已有的事实三元组(头实体、关系、尾实体)来挖掘知识图谱中缺失的事实三元组. 现有的研究工作主要致力于利用知识图谱中的结构信息来进行知识图谱补全任务. 然而, 这些工作忽略了知识图谱中蕴含的其他模态的信息也可能对知识图谱补全有帮助. 并且, 由于基于特定任务的知识通常没有被注入通用的预训练模型, 因而如何在抽取模态信息的过程中融合任务的相关知识变得至关重要. 此外, 因为不同模态特征对于知识图谱补全的贡献不一样, 所以如何有效地保留有用的多模态信息也是一大挑战. 为了解决上述问题, 提出一种融合任务知识的多模态知识图谱补全方法. 利用在当前任务上微调过的多模态编码器, 来获取不同模态下的实体向量表示. 并且, 通过一个基于循环神经网络的模态融合过滤模块, 去除与任务无关的多模态特征. 最后, 利用同构图网络表征并更新所有特征, 从而有效地完成多模态知识图谱补全任务. 实验结果表明, 所提出的方法能有效地抽取不同模态的信息, 并且能够通过进一步的多模态过滤融合来增强实体的表征能力, 进而提高多模态知识图谱补全任务的性能. 相似文献
17.
王聪;杨文娟;丁兴旺 《计算机与现代化》2024,(10):120-126
受历史档案资源多样性、个性化特征及其价值性特点的制约,传统聚合模型所得聚合结果与预期效果偏差较大,且在部分历史资源聚合过程中存在资源损失严重的问题,其聚合精准度难以满足该场景聚合要求。为了改善传统聚合模型在历史档案资源应用现状,通过引入多模信息融合算法,构建基于多模态信息融合的历史档案资源分布模型。首先梳理资源特征关联分布情况,对历史档案资源语义聚合进行设定;然后,固定聚合过程中有效关系参量标准及其聚合方式;最后,通过基于多模态信息融合的历史档案资源聚合获得模型。通过与另外2种聚合模型的可行性仿真数据验证表明,本文模型的各项聚合指标均能满足历史档案资源聚合条件,且模型表现稳定、可靠性高,适合现阶段小范围应用,推广与深度研究价值较高。 相似文献
18.
由于多模态数据中的数据分属多种模态且相互之间存在互补关系,所以利用传统单模态数据的分析和处理方法无法有效地融合不同模态的数据并表示和处理不同模态数据之间的相互关系。为了解决多模态数据的建模、表示和存储问题,使得更好地融合不同模态的数据及更有效地表示数据之间的相互关系,本文提出了一种新的数据模型,即模态结构图,用于多模态医学数据的建模。该模型利用图结构对多模态数据中的模态及模态间的关系进行建模和表示。基于此模型,本文提出了一种并行的数据加载技术,用于抽取出多模态医学数据中分属不同模态和模态间关系的数据并存储到图数据库中。通过使用批量医学数据文件进行实验,验证了该提取加载技术能够获得较好的数据处理效率。 相似文献
19.
技术可以从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要,在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题,提出了一种基于多模态特征融合的动态视频摘要算法(MFFSN),采用了有监督的编码器-解码器的网络框架。在编码端通过深度神经网络提取原始视频帧的多尺度空间特征和光流图像的多尺度运动特征,利用运动引导注意力模块(Motion Guided Attention,MGA)进行时空注意力建模,对空间特征和运动特征进行有机融合得到多模态特征;在解码阶段,采用自注意力机制关注数据中的显著特征,再通过回归网络得到帧重要性分数;最后根据背包算法选择关键镜头生成动态摘要。在Sum Me基准数据集上的实验结果证明提出的MFFSN摘要算法优于现有的同类视频摘要算法。 相似文献
20.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题;提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征;根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络;生成每个模态的特征金字塔;并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法——Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段;针对级联融合和较大值融合容易忽略弱特征;无法有效融合互补特征的问题;提出了一种锐化特征的特征金字塔融合方法;根据阈值强化突出强特征;互补叠加弱特征;有效利用每个模态的特征;进一步提高模型的检测效果。实验结果表明;特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题;在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。 相似文献