首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
目的 可见光和热红外模态数据具有很强的互补性,RGBT(RGB-thermal)跟踪受到越来越多的关注。传统RGBT目标跟踪方法只是将两个模态的特征进行简单融合,跟踪的性能受到一定程度的限制。本文提出了一种基于动态交互和融合的方法,协作学习面向RGBT跟踪的模态特定和互补表示。方法 首先,不同模态的特征进行交互生成多模态特征,在每个模态的特定特征学习中使用注意力机制来提升判别性。其次,通过融合不同层次的多模态特征来获得丰富的空间和语义信息,并通过设计一个互补特征学习模块来进行不同模态互补特征的学习。最后,提出一个动态权重损失函数,根据对两个模态特定分支预测结果的一致性和不确定性进行约束以自适应优化整个网络中的参数。结果 在两个基准RGBT目标跟踪数据集上进行实验,数据表明,在RGBT234数据集上,本文方法的精确率(precision rate,PR)为79.2%,成功率(success rate,SR)为55.8%;在GTOT(grayscale-thermal object tracking)数据集上,本文方法的精确率为86.1%,成功率为70.9%。同时也在RGBT234和GTO...  相似文献   

2.
针对现有跨模态检索方法不能充分挖掘模态之间的相似性信息的问题,提出一种基于语义融合和多重相似性学习(CFMSL)方法。首先,在特征提取过程中融合不同模态的语义信息,加强不同模态特征间的交互,使得模型能够充分挖掘模态间的关联信息。然后,利用生成器将单模态特征和融合模态特征映射到公共子空间中,通过最大化锚点与正例样本之间的相似性和最小化锚点与负例样本间的相似性得到具有判别性的特征进行模态对齐。最后,基于决策融合方式对相似性列表进行重排序,使得最终排序结果同时考虑单模态特征和融合模态特征,提高检索性能。通过在Pascal Sentences、Wikipedia、NUS-WIDE-10K这3个广泛使用的图文数据集上进行实验,实验结果表明CFMSL模型能够有效提高跨模态检索任务的性能。  相似文献   

3.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优...  相似文献   

4.
陈浩  秦志光  丁熠 《计算机应用》2020,40(7):2104-2109
脑胶质瘤的分割依赖多种模态的核磁共振成像(MRI)的影像。基于卷积神经网络(CNN)的分割算法往往是在固定的多种模态影像上进行训练和测试,这忽略了模态数据缺失或增加问题。针对这个问题,提出了将不同模态的图像通过CNN映射到同一特征空间下并利用同一特征空间下的特征来分割肿瘤的方法。首先,不同模态的数据经过同一深度CNN提取特征;然后,将不同模态的特征连接起来,经过全连接层实现特征融合;最后,利用融合的特征实现脑肿瘤分割。模型采用BRATS2015数据集进行训练和测试,并使用Dice系数对模型进行验证。实验结果表明了所提模型能有效缓解数据缺失问题。同时,该模型较多模态联合的方法更加灵活,能够应对模态数据增加问题。  相似文献   

5.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

6.
多模态数据融合方法通过学习多个数据集间的关联信息和互补信息,提高了数据分类或预测的性能。但现有的数据融合方法大都基于单独数据集自身的特征模式进行学习,不同异构数据之间的结构信息往往被忽略。因此,文中提出了一种基于超图正则化的多模态信息融合算法(sHMF),通过超图和流行正则项的方法结合表示模态内样本间的高阶关系和模态间的关系,即得到同构和异构的高阶网络。其中,采用超图稀疏表达学习超图,减少冗余边。为了验证所提算法的性能,在模拟数据和影响遗传学真实数据下进行实验,结果表明,sHMF算法在模拟数据和真实数据上均优于多任务学习、多邻域分类等流行算法对精神分裂症的分类精度。同时,sHMF在真实数据上得出的实验结果进一步揭示了一些与精神分裂症显著相关的生物标记物以及风险基因、甲基化因子和异常脑区之间潜在的联系。  相似文献   

7.
针对单模态行人检测在光照条件较差、目标部分遮挡、目标多尺度时检测效果较差的问题,提出了一种基于可见和红外双模态特征金字塔融合的行人检测算法。使用深度卷积神经网络代替传统的手工设计特征方式分别自动从可见模态及红外热模态的图片中提取单模态特征,根据ResNet(Residual Net)的阶段性特征图谱搭建特征金字塔网络,生成每个模态的特征金字塔,并将两个模态的特征金字塔进行逐层融合。选择深度学习通用目标检测算法--Faster R-CNN作为后续的目标定位与分类算法来解决多模态行人检测问题。在特征金字塔融合阶段,针对级联融合和较大值融合容易忽略弱特征,无法有效融合互补特征的问题,提出了一种锐化特征的特征金字塔融合方法,根据阈值强化突出强特征,互补叠加弱特征,有效利用每个模态的特征,进一步提高模型的检测效果。实验结果表明,特征金字塔聚合的多模态行人检测算法可以有效解决多模态行人检测问题,在KAIST数据集上的检测效果超过了目前该数据集上的最佳模型。  相似文献   

8.
毕以镇  马焕  张长青 《计算机应用》2023,(10):3099-3106
针对获取新模态难度大、收益差异大的问题,提出了一种增广模态收益动态评估方法。首先,通过多模态融合网络得到中间特征表示和模态融合前后的预测结果;其次,将两个预测结果的真实类别概率(TCP)引入置信度估计,得到融合前后的置信度;最后,计算两种置信度的差异,并将该差异作为样本以获取新模态所带来的收益。在常用多模态数据集和真实的医学数据集如癌症基因组图谱(TCGA)上进行实验。在TCGA数据集上的实验结果表明,与随机收益评估方法和基于最大类别概率(MCP)的方法相比,所提方法的准确率分别提高了1.73~4.93和0.43~4.76个百分点,有效样本率(ESR)分别提升了2.72~11.26和1.08~25.97个百分点。可见,所提方法能够有效评估不同样本获取新模态所带来的收益,并具备一定可解释性。  相似文献   

9.
已有的无监督跨模态哈希(UCMH)方法主要关注构造相似矩阵和约束公共表征空间的结构,忽略了2个重要问题:一是它们为不同模态的数据提取独立的表征用以检索,没有考虑不同模态之间的信息互补;二是预提取特征的结构信息不完全适用于跨模态检索任务,可能会造成一些错误信息的迁移。针对第一个问题,提出一种多模态表征融合结构,通过对不同模态的嵌入特征进行融合,从而有效地综合来自不同模态的信息,提高哈希码的表达能力,同时引入跨模态生成机制,解决检索数据模态缺失的问题;针对第二个问题,提出一种相似矩阵动态调整策略,在训练过程中用学到的模态嵌入自适应地逐步优化相似矩阵,减轻预提取特征对原始数据集的偏见,使其更适应跨模态检索,并有效避免过拟合问题。基于常用数据集Flickr25k和NUS-WIDE进行实验,结果表明,通过该方法构建的模型在Flickr25k数据集上3种哈希位长检索的平均精度均值较DGCPN模型分别提高1.43%、1.82%和1.52%,在NUS-WIDE数据集上分别提高3.72%、3.77%和1.99%,验证了所提方法的有效性。  相似文献   

10.
在研究跨媒体信息检索时,对于不同模态数据的异构性提出了挑战,针对如何更好的克服异构问题以提高多模态数据之间的检索精度,提出了一种基于字典学习的新跨媒体检索技术。首先,通过字典学习方法学习两个不同模态数据之间的稀疏系数,然后,通过特征映射方案由两个不同的投影矩阵分别把它们投入共同的特征子空间,最后,通过标签对齐同一类来增强不同模态之间的相关性。实验结果表明,与传统的同构子空间学习方法相比,基于字典的算法分类性能优越,该实验方法在两个数据集上优于几种最先进的方法。  相似文献   

11.
针对自然图像识别过程中不同深度学习模型关注兴趣区域不同的现象,本文引入深度卷积神经网络融合机制,结合深度迁移学习方法,给出了一种基于多感知兴趣区域特征融合的图像识别方法.本文将迁移学习方法引入牛津大学视觉组网络模型(visual geometry group network,VGGNet)和残差网络模型(residua...  相似文献   

12.
王召新  续欣莹  刘华平    孙富春   《智能系统学报》2020,15(4):787-794
材质识别在机器人与周围环境的相互作用中起着至关重要的作用,视觉、触觉和听觉模式可以提供不同材质的不同特性,如何利用不同模态的信号快速、高效地完成材质识别任务是亟待解决的问题。并且在现实应用中,传感器收集的数据量不大,无法为深度神经网络提供足够的数据进行学习训练。为此,本文将级联宽度学习这种泛化性能好的算法应用在小样本的材质识别任务上。首先,将两组同构多模态数据进行特征融合,之后使用级联特征节点的宽度学习进行特征学习,最终得到材质分类结果。最后,针对公开数据开展实验评估。结果表明,本文提出的方法与其他算法相比,在完成材质识别任务的同时,降低了训练时间,提高了分类性能。  相似文献   

13.
何国豪  翟涌  龚建伟    王羽纯  张曦 《智能系统学报》2022,17(6):1145-1153
针对目前基于双目视觉的高精度立体匹配网络消耗计算资源多、运算时间长、无法用于智能驾驶系统实时导航的问题,本文提出了一种能够满足车载实时性和准确性要求的动态融合双目立体匹配深度学习网络。该网络加入了基于全局深度卷积的注意力模块完成特征提取,减少了网络层数与参数数量;通过动态代价级联融合、多尺度融合以及动态视差结果修复优化3D卷积计算,加速了常用的3D特征融合过程。将训练好的模型部署在车载硬件例如NVIDIA Jetson TX2上,并在公开的KITTI立体匹配数据集上进行测试。实验显示,该方法可以达到与目前公开在排行榜中最好方法相当的运行精度,3像素点误差小于6.58%,并且运行速度小于0.1 s/f,能够达到车载实时使用性能要求。  相似文献   

14.
鲍国强    应文豪  蒋亦樟    张英    王骏    王士同   《智能系统学报》2018,13(4):594-601
针对复杂非线性数据的无监督学习问题,提出一种新型的映射方式来有效提高算法对复杂非线性数据的学习能力。以TSK模糊系统的规则前件学习为基础,提出一种新型的模糊特征映射新方法。接着,针对映射之后的数据维度过大问题,引入多层递阶融合的概念,进一步提出基于多层递阶融合的模糊特征映射新方法,从而有效避免了因单层模糊特征映射之后特征维数过高而导致的数据混乱和冗余的问题。最后与模糊C均值算法相结合,提出基于多层递阶融合模糊特征映射的模糊C均值聚类算法。实验研究表明,文中算法相比于经典模糊聚类方法,有着更加优越、稳定的性能。  相似文献   

15.
针对Siamese网络忽略不同层级差异特征之间的关联导致检测精度有限的问题,提出了基于差异特征融合的无监督SAR(synthetic aperture radar)图像变化检测算法。首先,利用对数比值算子和均值比值算子构建两幅信息互补的差异图,通过引入能量矩阵对差异图进行像素级融合以提高其信噪比;其次,设计了一种基于差异特征融合的Siamese网络(difference feature fusion for Siamese,DFF-Siamese),该网络能够通过差异特征提取模块在决策层综合衡量不同层级特征之间的差异程度,从而有效增强网络的特征表达能力;最后,利用模糊聚类算法对融合结果进行分类构建“伪标签”,用于训练DFF-Siamese网络以实现高精度SAR图像变化检测。在3组真实遥感数据集上的实验结果表明,本文提出的算法与其他对比算法相比具有更高的检测精度和更低的错误率。  相似文献   

16.
李翠锦  瞿中 《计算机应用》2020,40(11):3280-3288
边缘检测是将图像中的突变的重要信息提取出来的过程,是计算机视觉领域研究热点,也是图像分割、目标检测与识别等多种中高层视觉任务的基础。近几年来,针对边缘轮廓线过粗以及检测精度不高等问题,业内提出了谱聚类、多尺度融合、跨层融合等基于深度学习的边缘检测算法。为了使更多研究者了解边缘检测的研究现状,首先,介绍了传统边缘检测的实现理论及方法;然后,总结了近年来基于深度学习的主要边缘检测方法,并依据实现技术对这些方法进行了分类,对其涉及的关键技术进行分析,发现对多尺度多层次融合与损失函数的选择是重要的研究方向。通过评价指标对各类方法进行了比较,可知边缘检测算法在伯克利大学数据集(BSDS500)上的最优数据集规模(ODS)经过多年研究从0.598提高到了0.828,接近人类视觉水平。最后,展示了边缘检测算法研究的发展方向。  相似文献   

17.
石拓    张齐    石磊 《智能系统学报》2022,17(6):1104-1112
针对盗窃犯罪时空预测特征融合不精、时序动态适应性不足问题,提出自注意力和多尺度多视角特征动态融合的预测模型。首先,以盗窃发案的位置信息为基础,将数据投射到地图栅格内,通过构建一种可将不同时序长度案件数据匹配为自适应长度数据的方法,并组合向量映射后的天气、作案时间、地理位置等属性,构造多维度特征融合的输入向量;其次,采用自注意力机制生成多视角特征动态融合的向量;最后,通过采用多尺度窗口CNN对多视角特征动态融合向量进行编码后送入分类器,预测出每个地图栅格内的发案态势。在某市盗窃数据集上验证,本文方法在3种地理栅格尺度下,预测准确率最高可达到0.899,显著优于其他对比模型。  相似文献   

18.
空间注意力机制和高层语义注意力机制都能够提升图像描述的效果,但是通过直接划分卷积神经网络提取图像空间注意力的方式不能准确地提取图像中目标对应的特征。为了提高基于注意力的图像描述效果,提出了一种基于注意力融合的图像描述模型,使用Faster R-CNN(faster region with convolutional neural network)作为编码器在提取图像特征的同时可以检测出目标的准确位置和名称属性特征,再将这些特征分别作为高层语义注意力和空间注意力来指导单词序列的生成。在COCO数据集上的实验结果表明,基于注意力融合的图像描述模型的性能优于基于空间注意力的图像描述模型和多数主流的图像描述模型。在使用交叉熵训练方法的基础上,使用强化学习方法直接优化图像描述评价指标对模型进行训练,提升了基于注意力融合的图像描述模型的准确率。  相似文献   

19.
李翠锦  瞿中 《计算机应用》2005,40(11):3280-3288
边缘检测是将图像中的突变的重要信息提取出来的过程,是计算机视觉领域研究热点,也是图像分割、目标检测与识别等多种中高层视觉任务的基础。近几年来,针对边缘轮廓线过粗以及检测精度不高等问题,业内提出了谱聚类、多尺度融合、跨层融合等基于深度学习的边缘检测算法。为了使更多研究者了解边缘检测的研究现状,首先,介绍了传统边缘检测的实现理论及方法;然后,总结了近年来基于深度学习的主要边缘检测方法,并依据实现技术对这些方法进行了分类,对其涉及的关键技术进行分析,发现对多尺度多层次融合与损失函数的选择是重要的研究方向。通过评价指标对各类方法进行了比较,可知边缘检测算法在伯克利大学数据集(BSDS500)上的最优数据集规模(ODS)经过多年研究从0.598提高到了0.828,接近人类视觉水平。最后,展示了边缘检测算法研究的发展方向。  相似文献   

20.
For visual quality inspection systems to be applicable in industrial settings, it is mandatory that they are highly flexible, robust and accurate. In order to improve these characteristics a multilevel information fusion approach is presented. A first fusion step at the feature-level enables the system to learn from an undefined number of potential defects which might be segmented from the images. This allows for the quality control operators to label the data at the image-level and the sub-image-level, and use this information during the learning process. Additionally, the operators are allowed to provide a confidence measure for their labelling. The additional information obtained from the increased flexibility of the operator inputs allows to build more accurate classifiers. A second fusion step at the decision-level combines the classifications of different classifiers, making the system more accurate and more robust with respect to the classification method chosen. The experimental results, using various artificial and real-world visual quality inspection data sets, show that each of these fusion approaches can significantly improve the classification accuracy. If both information fusion approaches are combined the accuracy increases even further, significantly outperforming each of the fusion approaches on their own.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号