首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 209 毫秒
1.
混合概率典型相关性分析   总被引:4,自引:0,他引:4  
典型相关性分析(canonical correlation analysis, CCA)是一种用来分析2组随机变量之间相关性的统计分析工具,但作为一种线性数学模型,CCA不足以揭示真实世界中大量存在的非线性相关现象.采用局部化的方法,在概率典型相关性分析(probabilistic CCA, PCCA)的基础上,使用概率混合模型框架,提出了混合概率典型相关性分析模型(mixture of probabilistic CCA, MixPCCA)以及估计模型参数的2阶段期望最大化(expectation maximization, EM)算法,并给出了使用聚类融合确定局部线性模型数量的方法和MixPCCA模型应用于模式识别的理论框架.在手写体数据集USPS和MNIST上的实验证明,MixPCCA模型通过混合多个局部线性PCCA模型不仅提供了一种捕捉复杂的全局非线性相关性的解决方案,而且还具备检测只在局部区域才存在的相关性的能力.  相似文献   

2.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

3.
视觉自动问答技术是一个新兴的多模态学习任务,它联系了图像内容理解和文本语义推理,针对图像和问题给出对应的回答.该技术涉及多种模态交互,对视觉感知和文本语义学习有较高的要求,受到了广泛的关注.然而,视觉自动问答模型的训练对数据集的要求较高.它需要多种多样的问题模式和大量的相似场景不同答案的问题答案标注,以保证模型的鲁棒性和不同模态下的泛化能力.而标注视觉自动问答数据需要花费大量的人力物力,高昂的成本成为制约该领域发展的瓶颈.针对这个问题,本文提出了基于跨模态特征对比学习的视觉问答主动学习方法(CCRL).该方法从尽可能覆盖更多的问题类型和尽可能获取更平衡的问题分布两方面出发,设计了视觉问题匹配评价(VQME)模块和视觉答案不确定度度量(VAUE)模块.视觉问题评价模块使用了互信息和对比预测编码作为自监督学习的约束,学习视觉模态和问题模式的匹配关系.视觉答案不确定性模块引入了标注状态学习模块,自适应地选择匹配的问题模式并学习跨模态问答语义关联,通过答案项的概率分布评估样本不确定度,寻找最有价值的未标注样本进行标注.在实验部分,本文在视觉问答数据集VQA-v2上将CCRL和其他最新的主动学习...  相似文献   

4.
张天明  张杉  刘曦  曹斌  范菁 《软件学报》2024,35(3):1107-1124
作为自然语言处理领域的关键子任务,命名实体识别通过提取文本中的关键信息,帮助机器翻译、文本生成、知识图谱构建以及多模态数据融合等许多下游任务深度理解文本蕴含的复杂语义信息,有效地完成任务.在实际生活中,由于时间和人力等成本问题,命名实体识别任务常常受限于标注样本的稀缺.尽管基于文本的小样本命名实体识别方法已取得较好的泛化表现,但由于样本量有限,使得模型能提取的语义信息也十分受限,进而导致模型预测效果依然不佳.针对标注样本稀缺给基于文本的小样本命名实体识别方法带来的挑战,提出了一种融合多模态数据的小样本命名实体识别模型,借助多模态数据提供额外语义信息,帮助模型提升预测效果,进而可以有效提升多模态数据融合、建模效果.该方法将图像信息转化为文本信息作为辅助模态信息,有效地解决了由文本与图像蕴含语义信息粒度不一致导致的模态对齐效果不佳的问题.为了有效地考虑实体识别中的标签依赖关系,使用CRF框架并使用最先进的元学习方法分别作为发射模块和转移模块.为了缓解辅助模态中的噪声样本对模型的负面影响,提出一种基于元学习的通用去噪网络.该去噪网络在数据量十分有限的情况下,依然可以有效地评估辅助模态中不同样...  相似文献   

5.
近年来多模态情绪识别获得广泛关注,模态间的特征融合决定了情绪识别的效果,现有基于图的情绪特征融合方法多基于二元关系图,在处理三种及以上模态数据时难以实现有效的模态间特征融合,限制了多模态情绪识别的效果.为解决该问题,本文提出基于超图的多模态情绪识别模型(Multi-modal Emotion Recognition Based on Hypergraph,MORAH),引入超图来建立多模态的多元关系,以此替代现有图结构采用的多个二元关系,实现更加充分、高效的多模态特征融合.具体来说,该模型将多模态特征融合分为两个阶段:超边构建阶段和超图学习阶段.在超边构建阶段,通过胶囊网络实现对序列中每个时间步的信息聚合,并建立单模态的图,然后使用图卷积进行第二次信息聚合,并以此作为下一阶段建立超图的基础,得益于图胶囊聚合方法的加入,MORAH可以同时处理对齐数据和未对齐数据,无需手动对齐;在超图学习阶段,模型建立同一样本不同模态节点之间的关联,以及同类样本所有模态之间的关联,同时,在超图卷积过程中,使用分层多级超边来避免过于平滑的节点嵌入,并使用简化的超图卷积方法来融合模型之间的高级特征,以确保所有...  相似文献   

6.
针对单模态细粒度分类方法难以区分图像间细微差异的问题,将多模态融合方法引入到细粒度分类任务中,充分利用多模态数据的相关性和互补性,提出了一种基于模态相关性学习的细粒度分类方法。该方法分为两个阶段,首先考虑到图像和文本数据之间的对应关系,利用它们的匹配程度作为约束来进行模型的预训练;接着,加载上一步得到的网络参数,先提取多模态特征,再利用文本特征指导图像特征的生成;最后,基于融合后的特征进行细粒度分类。该方法在UPMC-Food101、MEP-3M-MEATS和MEP-3M-OUTDOORS数据集上进行训练测试,分别达到91.13%、82.39%和93.17%的准确率。实验结果表明,该方法相对于传统的多模态融合方法具有更好的性能,是一种有效的细粒度分类方法。  相似文献   

7.
图像-文本匹配任务旨在衡量图像和文本描述之间的相似性,其在桥接视觉和语言中起着至关重要的作用.近年来,图像与句子的全局对齐以及区域与单词的局部对齐研究方面取得了很大的进展.本文对当前先进的研究方法进行分类和描述.具体地,本文将现有方法划分为基于全局特征的图像-文本匹配方法、基于局部特征的图像-文本匹配方法、基于外部知识的图像-文本匹配方法、基于度量学习的图像-文本匹配方法以及多模态预训练模型,对于基于全局特征的图像-文本匹配方法,本文依据流程类型划分为两类:基于嵌入的方法和基于交互的方法;而对于基于局部特征的图像-文本匹配方法,依据其交互模式的不同,则被细分为三类:基于模态内关系建模的方法、基于模态间关系建模的方法以及基于混合交互建模的方法.随后,本文对当前图像-文本匹配任务的相关数据集进行了整理,并对现有方法的实验结果进行分析与总结.最后,对未来研究可能面临的挑战进行了展望.  相似文献   

8.
为了避免图像分割,并提高图像标注精度,提出一种基于典型相关分析(CCA)和高斯混合模型(GMM)的自动图像标注方法.利用CCA对图像的全局颜色特征与全局局部二值模式(LBP)纹理特征进行特征融合.使用融合后的语义特征,对每一个关键词建立GMM模型来估计单词类密度,从而在特征子空间中得到每个单词的概率分布.采用贝叶斯分类器确定每个标注词和测试图像的联合概率,运用词间语义关系优化标注结果.实验结果表明,使用该方法后的图像标注性能有了较大程度的改善.  相似文献   

9.
岳根霞 《计算机仿真》2021,38(2):225-229
针对传统多模态病变图像挖掘误差较大的问题,提出了一种基于遗传算法的多模态病变图像关联挖掘方法.通过获取病变图像Shannon信息熵中条件熵与联合熵的关系,对病变图像的互信息进行归一化处理;通过遗传算法对病变图像互信息的最优解进行搜索,获取病变图像的最优模态;建立最优模态获取模型,获取多种成像设备病变图像的最优模态,实现多模态病变图像的合成.为了验证基于遗传算法的多模态病变图像的图像挖掘误差较小,将该多模态病变图像与基于刚体模型的多模态病变图像、基于图像灰度的多模态病变图像、基于图像特征点的多模态病变图像进行对比,得到这四种多模态病变图像的图像挖掘误差分别为0.41、0.2、0.19、0.063,通过比较可知该多模态病变图像的图像挖掘误差最小,即该多模态病变图像更加精准.  相似文献   

10.
基于多模态子空间相关性传递的视频语义挖掘   总被引:2,自引:0,他引:2  
在视频语义信息理解和挖掘中,充分利用图像、音频和文本等多模态媒质之间的交互关联是非常重要的研究方向.考虑到视频的多模态和时序关联共生特性,提出了一种基于多模态子空间相关性传递的语义概念检测方法来挖掘视频的语义信息.该方法对所提取视频镜头的多模态底层特征,根据共生数据嵌入(co-occurrence data embedding)和相似度融合(SimFusion)进行多模态子空间相关性传递而得到镜头之间的相似度关系,接着通过局部不变投影(locality preserving projections)对原始数据进行降维以获得低维语义空间内的坐标,再利用标注信息训练分类模型,从而可对训练集外的测试数据进行语义概念检测,实现视频语义信息挖掘.实验表明该方法有较高的准确率.  相似文献   

11.
Canonical correlation analysis (CCA) is a popular and powerful dimensionality reduction method to analyze paired multi-view data. However, when facing semi-paired and semi-supervised multi-view data which widely exist in real-world problems, CCA usually performs poorly due to its requirement of data pairing between different views and un-supervision in nature. Recently, several extensions of CCA have been proposed, however, they just handle the semi-paired scenario by utilizing structure information in each view or just deal with semi-supervised scenario by incorporating the discriminant information. In this paper, we present a general dimensionality reduction framework for semi-paired and semi-supervised multi-view data which naturally generalizes existing related works by using different kinds of prior information. Based on the framework, we develop a novel dimensionality reduction method, termed as semi-paired and semi-supervised generalized correlation analysis (S2GCA). S2GCA exploits a small amount of paired data to perform CCA and at the same time, utilizes both the global structural information captured from the unlabeled data and the local discriminative information captured from the limited labeled data to compensate the limited pairedness. Consequently, S2GCA can find the directions which make not only maximal correlation between the paired data but also maximal separability of the labeled data. Experimental results on artificial and four real-world datasets show its effectiveness compared to the existing related dimensionality reduction methods.  相似文献   

12.
Canonical correlation analysis (CCA) is one of the most well-known methods to extract features from multi-view data and has attracted much attention in recent years. However, classical CCA is unsupervised and does not take discriminant information into account. In this paper, we add discriminant information into CCA by using random cross-view correlations between within-class samples and propose a new method for multi-view dimensionality reduction called canonical random correlation analysis (RCA). In RCA, two approaches for randomly generating cross-view correlation samples are developed on the basis of bootstrap technique. Furthermore, kernel RCA (KRCA) is proposed to extract nonlinear correlations between different views. Experiments on several multi-view data sets show the effectiveness of the proposed methods.  相似文献   

13.
为了在半监督情境下利用多视图特征中的信息提升分类性能,通过最小化输入特征向量的局部重构误差为以输入特征向量为顶点构建的图学习合适的边权重,将其用于半监督学习。通过将最小化输入特征向量的局部重构误差捕获到的输入数据的流形结构应用于半监督学习,有利于提升半监督学习中标签预测的准确性。对于训练样本图像的多视图特征的使用问题,借助于改进的典型相关分析技术学习更具鉴别性的多视图特征,将其有效融合并用于图像分类任务。实验结果表明,该方法能够在半监督情境下充分地挖掘训练样本的多视图特征表示的鉴别信息,有效地完成鉴别任务。  相似文献   

14.
有序判别典型相关分析   总被引:1,自引:0,他引:1  
周航星  陈松灿 《软件学报》2014,25(9):2018-2025
多视图学习方法通过视图间互补信息的融合,达到增强单一视图方法的鲁棒性并提升学习性能的目的.典型相关分析(canonical correlation analysis,简称CCA)是一种重要的多视图信息融合技术.其研究的是针对同一组目标两组不同观测数据间的相关性,目标是得到一组相关性最大的投影向量.但当面对标号有序的分类任务时,CCA因没有利用类信息和类间有序信息,造成了对分类性能的制约.为此,通过将有序类信息嵌入CCA进行扩展,发展出有序判别典型相关分析(ordinal discriminative canonical correlation analysis,简称OR-DisCCA).实验结果表明, OR-DisCCA的性能比相关方法更优.  相似文献   

15.
Canonical correlation analysis (CCA) is a widely used technique for analyzing two datasets (two views of the same objects). However, CCA needs that the samples of the two views are fully-paired. Actually, we are often faced up with the semi-paired scenario where the number of available paired samples is limited and yet the number of unpaired samples is sufficient. For such a scenario, CCA is generally prone to overfitting and thus performs poorly, since its definition itself makes it only able to utilize those paired samples. To overcome such a shortcoming, several semi-paired variants of CCA have been proposed. However, unpaired samples in these methods are just used in the way of single-view leaning to capture individual views’ structure information for regularizing CCA. Intuitively, using unpaired samples in the way of two-view learning should be more natural and more attractive since CCA itself is a two-view learning method. As a result, a novel CCAs semi-paired variant named Neighborhood Correlation Analysis (NeCA), which uses unpaired samples in the two-view learning way, is developed through incorporating between-view neighborhood relationships into CCA. The relationships are acquired through leveraging within-view neighborhood relationships of each view’s all data (including paired and unpaired data) and between-view paired information. Thus, it can take more sufficient advantage of the unpaired samples and then mitigate overfitting effectively caused by the limited paired data. Promising experiments results on several popular multi-view datasets show its feasibility and effectiveness.  相似文献   

16.
Correlated information between multiple views can provide useful information for building robust classifiers. One way to extract correlated features from different views is using canonical correlation analysis (CCA). However, CCA is an unsupervised method and can not preserve discriminant information in feature extraction. In this paper, we first incorporate discriminant information into CCA by using random cross-view correlations between within-class examples. Because of the random property, we can construct a lot of feature extractors based on CCA and random correlation. So furthermore, we fuse those feature extractors and propose a novel method called random correlation ensemble (RCE) for multi-view ensemble learning. We compare RCE with existing multi-view feature extraction methods including CCA and discriminant CCA (DCCA) which use all cross-view correlations between within-class examples, as well as the trivial ensembles of CCA and DCCA which adopt standard bagging and boosting strategies for ensemble learning. Experimental results on several multi-view data sets validate the effectiveness of the proposed method.  相似文献   

17.
为了有效地在半监督多视图情景下进行维数约简,提出了使用非负低秩图进行标签传播的半监督典型相关分析方法。非负低秩图捕获的全局线性近邻可以利用直接邻居和间接可达邻居的信息维持全局簇结构,同时,低秩的性质可以保持图的压缩表示。当无标签样本通过标签传播算法获得估计的标签信息后,在每个视图上构建软标签矩阵和概率类内散度矩阵。然后,通过最大化不同视图同类样本间相关性的同时最小化每个视图低维特征空间类内变化来提升特征鉴别能力。实验表明所提方法比已有相关方法能够取得更好的识别性能且更鲁棒。  相似文献   

18.
Semi-supervised multi-view learning has attracted considerable attention and achieved great success in the machine learning field. This paper proposes a semi-supervised multi-view maximum entropy discrimination approach (SMVMED) with expectation Laplacian regularization for data classification. It takes advantage of the geometric information of the marginal distribution embedded in unlabeled data to construct a semi-supervised classifier. Different from existing methods using Laplacian regularization, we propose to use expectation Laplacian regularization for semi-supervised learning in probabilistic models. We give two implementations of SMVMED and provide their kernel variants. One of them can be relaxed and formulated as a quadratic programming problem that is solved easily. Therefore, for this implementation, we provided two versions which are approximate and exact ones. The experiments on one synthetic and multiple real-world data sets show that SMVMED demonstrates superior performance over semi-supervised single-view maximum entropy discrimination, MVMED and other state-of-the-art semi-supervised multi-view learning methods.  相似文献   

19.
目的 典型相关分析是一种经典的多视图学习方法。为了提高投影方向的判别性能,现有典型相关分析方法通常采用引入样本标签信息的策略。然而,获取样本的标签信息需要付出大量的人力与物力,为此,提出了一种联合标签预测与判别投影学习的半监督典型相关分析算法。方法 将标签预测与模型构建相融合,具体地说,将标签预测融入典型相关分析框架中,利用联合学习框架学得的标签矩阵更新投影方向,进而学得的投影方向又重新更新标签矩阵。标签预测与投影方向的学习过程相互依赖、交替更新,预测标签不断地接近其真实标签,有利于学得最优的投影方向。结果 本文方法在AR、Extended Yale B、Multi-PIE和ORL这4个人脸数据集上分别进行实验。特征维度为20时,在AR、Extended Yale B、Multi-PIE和ORL人脸数据集上分别取得87%、55%、83%和85%识别率。取训练样本中每人2(3,4,5)幅人脸图像为监督样本,提出的方法识别率在4个人脸数据集上均高于其他方法。训练样本中每人5幅人脸图像为监督样本,在AR、Extended Yale B、Multi-PIE和ORL人脸数据集上分别取得94.67%、68%、83%和85%识别率。实验结果表明在训练样本标签信息较少情况下以及特征降维后的维数较低的情况下,联合学习模型使得降维后的数据最大限度地保存更加有效的信息,得到较好的识别结果。结论 本文提出的联合学习方法提高了学习的投影方向的判别性能,能够有效地处理少量的有标签样本和大量的无标签样本的情况以及解决两步学习策略的缺陷。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号