首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
二维人脸识别受光照、遮挡和姿态的影响较大.为了克服二维人脸识别的缺点,本文提出了一种基于深度学习的多模态融合三维人脸识别算法.该方法首先使用卷积自编码器将彩色图像和深度图进行融合,将融合后的图像作为网络的输入进行预训练,并且设计了一种新的损失函数cluster loss,结合Softmax损失,预训练了一个精度非常高的模型.之后使用迁移学习将预训练的模型进行微调,得到了一个轻量级神经网络模型.将原始数据集进行一系列处理,使用处理之后的数据集作为测试集,测试的识别准确率为96.37%.实验证明,该方法弥补了二维人脸识别的一些缺点,受光照和遮挡的影响非常小,并且相对于使用高精度三维人脸图像的三维人脸识别,本文提出的算法速度快,并且鲁棒性高.  相似文献   

2.
对跨模态数据检索精确性问题,提出一种基于多模态数据融合的检索方法。采用CNN+Bi_LSTM与Glove+Bi_GRU的方法分别对图片和文本数据进行编码,并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征,使用同模态下与不同模态间的多种相似度损失函数,对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度,确定正确检索结果。实验证明,设计的多模态数据融合与检索模型,相较于其他跨模态搜索分类模型,辨别损失更低。且在模型各部分功能上,无论是引入LSTM的多模态特征提取模块,还是基于双尺度相似性计算的语义建模方法,都在数据检索中发挥了一定的作用,当k=12时,本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型,R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言,提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时,相较于LSCO、MADLG、D...  相似文献   

3.
人脸反欺骗技术可以准确判断捕获的人脸图像是真实人脸还是虚假人脸,是人脸识别系统安全的重要保障.传统的人脸反欺骗方法主要是利用手工设计的特征,如LBP、HoG、SIFT、SURF和DoG来刻画真实人脸和虚假人脸之间的不同特征分布,但人工设计的特征难以适应无约束环境下(如光照、背景的变化)的人脸反欺骗问题.鉴于此,该文提出...  相似文献   

4.
为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息,提出了一种基于多模态信息融合的语音意图理解方法,并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计.该方法从识别文本和语音信号中抽取不同模态的信息并进行融合,能够有效地从语音中获取丰富的意图信息,有助于建立自然的人机交互环境.  相似文献   

5.
在基于点云和图像的三维模型分类检索中,现有特征融合方法忽略了模态内的特征信息和模态间的互补信息,存在融合特征丢失的问题,且分类标签和预测特征之间缺乏高维相关性,检索准确率较低。针对该问题,提出一种多模态特征和词嵌入联合驱动的网络结构,以对三维模型进行分类检索。在特征提取过程中,利用特征提取器提取来自点云和视图的三维模型特征,通过共享空间来对齐不同模态的特征。在模态融合过程中,计算不同模态之间的余弦相似度以增强模态特征,将增强特征进行拼接得到融合特征。在模型特征分类的过程中,通过建立词嵌入模型与分类标签的高维相关性实现三维模型特征的统一表示和分类检索。在ModelNet10和ModelNet40数据集上进行实验,结果表明,该网络的平均检索精度均值分别达到92.9%和91.5%,可以获取精准的三维模型特征描述符,与VoxNet、SCIF、MVCNN等检索方法相比,其能显著提高三维模型的检索精度和分类准确率。  相似文献   

6.
尽管深度学习因为强大的非线性表示能力已广泛应用于许多领域,多源异构模态数据间结构和语义上的鸿沟严重阻碍了后续深度学习模型的应用。虽然已经有许多学者提出了大量的表示学习方法以探索不同模态间的相关性和互补性,并提高深度学习预测和泛化性能。然而,多模态表示学习研究还处于初级阶段,依然存在许多科学问题尚需解决。迄今为止,多模态表示学习仍缺乏统一的认知,多模态表示学习研究的体系结构和评价指标尚不完全明确。根据不同模态的特征结构、语义信息和表示能力,从表示融合和表示对齐两个角度研究和分析了深度多模态表示学习的进展,并对现有研究工作进行了系统的总结和科学的分类。同时,解析了代表性框架和模型的基本结构、应用场景和关键问题,分析了深度多模态表示学习的理论基础和最新发展,并且指出了多模态表示学习研究当前面临的挑战和今后的发展趋势,以进一步推动深度多模态表示学习的发展和应用。  相似文献   

7.
张静  俞辉 《计算机应用》2008,28(1):199-201,
针对包含复杂语义信息的视频检索的需要,提出了一种基于关系代数的多模态信息融合视频检索模型,该模型充分利用视频包含的文本、图像、高层语义概念等多模态特征,构造了对应于多个视频特征的查询模块,并创新地使用关系代数表达式对查询得到的多模态信息进行融合。实验表明,该模型能够充分发挥多模型视频检索及基于关系代数表达式的融合策略在复杂语义视频检索中的优势,得到较好的查询结果。  相似文献   

8.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

9.
随着当今信息技术的飞速发展,信息的存在形式多种多样,来源也十分广泛。不同的存在形式或信息来源均可被称之为一种模态,由两种或两种以上模态组成的数据称之为多模态数据。多模态数据融合负责将多个模态的信息进行有效的整合,汲取不同模态的优点,完成对信息的整合。自然现象具有十分丰富的特征,单一模态很难提供某个现象的完整信息。面对保持融合后具有各个模态信息的多样性以及完整性、使各个模态的优点最大化、减少融合过程造成的信息损失等方面的融合要求,如何对各个模态的信息进行融合成为了多个领域广泛存在的一个新挑战。简要阐述了常见的多模态融合方法、融合架构,总结了三个常见的融合模型,简要分析协同、联合、编解码器三大架构的优缺点以及多核学习、图像模型等具体融合方法。在多模态的应用方面,对多模态视频片段检索、综合多模态信息生成内容摘要、多模态情感分析、多模态人机对话系统进行了分析与总结。指出了当前多模态融合出现的问题,并提出未来的研究方向。  相似文献   

10.
针对当前多模态谣言检测模型存在的模态间信息融合不足和过于依赖各模态信息完整度的问题,提出一种基于多级融合的多模态谣言检测模型。分别利用Text CNN和Resnet18网络对文本和图片编码并进行特征级融合,对纯文本模型、纯图片模型和特征级融合模型进行决策级融合并对决策级融合进行改进。多级融合框架加深各模态间的信息融合程度,改进后的决策级融合有效缓解了传统模型对各模态信息完整度要求过高的问题。实验结果表明,该模型在微博数据集上的F1值和准确率均高于传统的多模态谣言检测模型,进一步提升了谣言检测效果。  相似文献   

11.
针对现有三维模型信息隐藏算法无法有效抵抗不均匀压缩的问题,提出一种基于多融合态的多载体低密度的信息隐藏算法。首先通过平移和缩放对多个三维模型进行定位、定向及定型;其次对三维模型进行不同角度的旋转,以中心点作为融合点进行融合,得到多个融合态;再次,利用局部高度和Mean Shift聚类分析算法对融合态模型的顶点进行能量划分,得到不同能量的顶点;最后,通过修改顶点坐标的方法将经过Arnold置乱变化的秘密信息快速隐藏于多个融合态和三维模型中。实验结果表明,该算法对抵御不均匀压缩的攻击有很好的鲁棒性且具有很高的不可见性。  相似文献   

12.
为提高三维模型的检索性能,将聚类分析用于特征描述符的提取以及模型间相似性关系划分等方面,能够对三维模型进行较为合理的分类,对较大规模三维模型数据库的索引和组织进行完善,提高三维模型检索效率。针对当前主流的基于聚类的三维模型检索算法进行分析,比较几种聚类算法的优势与不足,在其基础上进行改进,并继续应用于三维模型的检索中。  相似文献   

13.
三维模型检索是现在的研究热点,提出一种基于深度图像的三维模型检索算法。对三维模型进行规范化处理,采用基于正交投影的方法计算三维模型在其包围立方体的六个面上的深度图像;提取深度图像的边界方向直方图和Zernike矩特征;利用特征距离度量进行三维模型检索,并采用相关反馈技术实现权值的调整,得到用户最满意的目标检索模型。对比实验表明,该算法避免了传统视觉图像丢失三维模型空间信息的缺点,有效地提高了检索的精确性和鲁棒性。  相似文献   

14.
为了更加高效地从三维模型库中检索出相似模型,提出了一种基于切片的三维模型检索算法。首先应用主元分析对三维模型进行预处理;然后对预处理后的模型在不同位置和不同方向上进行切片,根据所得切片断面的相对面积进行三维模型检索。基于该算法设计并实现了三维模型检索系统。实验采用PSB(PrincetonShape Benchmark)提供的三维模型数据库,结果表明把模型的切片截面作为三维模型的特征描述,能有效地区分不同模型,并取得了较好的检索效果。  相似文献   

15.
针对如何提高复杂曲面的三维模型的检索精度的问题,提出了一种基于曲度特征的三维模型检索算法。首先,在模型表面选取随机采样点,计算点所在局部曲面的高斯曲率和平均曲率,通过高斯曲率和平均曲率求出随机点的曲度值,曲度值表明了曲面的凹凸属性。然后,以模型的质心为球心,以随机点与质心距离和曲度值为坐标轴建立坐标系,统计出一定距离范围内曲度值分布的概率,构建距离与曲度的分布矩阵,以此分布矩阵作为三维模型特征描述符。该特征描述符具有旋转不变性和平移不变性,能够很好地反映复杂曲面的几何特征。最后,通过比较分布矩阵给出不同模型间的相似度。实验结果表明,该方法相比形状分布算法的检索性能有较大提高,尤其适用于具有复杂曲面的三维模型检索。  相似文献   

16.
基于图像融合的微表面快速三维重构算法研究*   总被引:1,自引:0,他引:1  
李祥  傅俊琼 《计算机应用研究》2009,26(10):3992-3994
在分析电子探针图像多样性与相关性特征的基础上,提出先应用提升小波进行快速图像融合,以提高图像信息量,然后根据微表面图像纹理相似性,抽取出高程数据,通过顶点数组方式快速重构三维立体场景。实验表明,此方法信息量大、操作简单、场景逼真,易形成交互场景,具有较好的实际应用价值。  相似文献   

17.
对基于内容的三维模型检索的应用背景和现有算法进行了研究。结合物理学的基本原理,提出了一种静电场电通量描述子,在三维模型的模拟电场中设置测试球壳,计算各个测试球壳内部的电通量,用以描述三维模型。该描述子具有平移、旋转和缩放不变的特征,并对噪声有较强的鲁棒性。实验证明该描述子具有较强的检索能力。  相似文献   

18.
基于图像的三维模型检索比形状特征和拓扑结构特征具有更易于实现且检索效果好等优点,但现有基于图像的三维模型检索方法存在一些问题,如没有考虑三维深度信息、所提特征不能全部表达三维模型信息且不能实现用户交互操作等。对此提出一种基于深度图像的三维模型相关反馈检索算法:首先提取三维模型深度图像边界方向直方图和Zernike矩特征;然后利用特征距离度量进行三维模型检索,并采用相关反馈技术实现分类器的构造和模型的标注;最后利用调整好的权值分类器进行检索和标注。实验表明,该算法实现了三维模型的相关反馈检索和标注,提高了检索的精确性,并增强了系统的实用性,为进一步进行语义检索打下基础。  相似文献   

19.
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于Pedestrian和Cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号