首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
为更好地利用单词词性包含的语义信息和伴随单词出现时的非自然语言上下文信息,提出动态调整语义的词性加权多模态情感分析(part of speech weighted multi-modal sentiment analysis model with dynamic semantics adjustment, PW-DS)模型.该模型以自然语言为主体,分别使用基于Transformer的双向编码器表示(bidirectional encoder representation from Transformers, BERT)模型、广义自回归预训练(generalized autoregressive pretraining for language understanding, XLNet)模型和一种鲁棒优化的BERT预训练(robustly optimized BERT pretraining approach, RoBERTa)模型为文本模态做词嵌入编码;创建动态调整语义模块将自然语言和非自然语言信息有效结合;设计词性加权模块,提取单词词性并赋权以优化情感判别.与张量融合网络和低秩多模态...  相似文献   

2.
为了在多模态图像检索任务中建立文本特征与图像特征的相关性,提出基于语义增强特征融合的多模态图像检索模型(SEFM).该模型通过文本语义增强模块、图像语义增强模块2部分在特征融合时对组合特征进行语义增强.在文本语义增强模块建立多模态双重注意力机制,利用双重注意力建立文本与图像之间的关联以增强文本语义;在图像语义增强模块引入保留强度和更新强度,控制组合特征中查询图像特征的保留和更新程度.基于以上2个模块可以优化组合特征使其更接近目标图像特征.在MIT-States和Fashion IQ这2个数据集上对该模型进行评估,实验结果表明在多模态图像检索任务上该模型与现有方法相比在召回率和准确率上都有所提升.  相似文献   

3.
将稀疏表示应用于脸耳多模态身份辨识,比较和分析采用不同融合方法的多模态稀疏表示识别算法的准确性和鲁棒性,为多模态稀疏表示融合识别算法设计提供理论和方法指导。结合多模态融合层次理论与稀疏表示分类的技术特点,提出3种多模态稀疏表示识别方法:直接特征融合法、间接特征融合法和匹配层融合法。从多模态融合角度看,3种方法的不同在于融合层次或融合策略不同;从稀疏表示角度看,它们的主要区别在于稀疏表示时脸和耳特征耦合的程度不同。在3个多模态数据库上的实验结果表明:所提3种方法在识别准确率和鲁棒性上远优于采用NN、NFL和SVM等分类器的融合识别方法;当脸耳图像中噪声不显著时, 3种方法性能相当,当噪声严重时,匹配层融合识别方法优于特征层融合方法。  相似文献   

4.
简要介绍了文本、语音和人脸等3种单模态情感识别方法,总结了常用的多模态情感数据集。通过分析基于深度学习的多模态情感识别的研究现状,按照融合方式将基于深度学习的多模态情感识别分为基于早期融合、晚期融合、混合融合以及多核融合等4种情感识别方法,并进行了对比分析。最后,指出了情感识别技术研究进展存在的问题及未来发展趋势。  相似文献   

5.
为了提升突发事件中网民情感分析的准确率和稳定性,提出一种基于混合融合的突发事件网民多模态情感分析模型。对于突发事件中的多模态信息,利用双向LSTM和VGG并结合注意力模型,分别提取文本情感特征和图像情感特征,利用中层融合的方式学习不同模态特征之间的交互关系,通过基于逻辑回归的决策层融合模型充分学习不同模态之间的相关性,最后通过全连接层输出情感预测结果。在构建的“新冠疫情”数据集上进行对比验证实验,结果表明,所构建的模型相较于基准模型具有一定的优越性。  相似文献   

6.
为解决现有多模态图像融合方法忽略临床先验知识的利用,且多模态之间的信息交互不充分等问题,提出基于层次化双重注意力网络的乳腺多模态图像分类方法,引入新的先验学习模块,有效挖掘和利用临床先验,提升单模态特征的区分性。设计层次化的双重注意力模块,利用注意力机制同时增强全局模态间通道特征和局部模态内特征的区分性信息,增强模态间的信息交互,进一步提升多模态融合的分类性能。试验结果表明,与其他方法对比,提出的模型能够取得更好的性能,在受试者工作特征曲线下面积、准确性、特异性和灵敏度分别达到为82.5%、83.3%、80.0%和85.0%。结果证明建立层次化双重注意力网络预测乳腺肿瘤良恶性可行。  相似文献   

7.
基于已有的视觉空间和文本空间上标签相关性建模方法,提出一种多模态子空间学习的语义标签生成方法。通过建立视觉特征相似图,以非线性方式重构“图像-标签”相关性,进而将图像的视觉模态表示和标签的文本模态表示统一到多模态子空间中,并保证空间变换前后具备结构保持。在该空间中,标签的文本模态与图像的视觉内容模态信息彼此互补,语义相关的图像和标签映射到空间中相近的样本点,进而将语义标签生成问题转换为子空间内图像的近邻标签搜索问题。结果表明,该方法在FLICKR-25K数据集上,性能达到36.88%,在NUS-WIDE数据集上,性能达到44.17%,多模态子空间学习的语义标签生成方法可以大幅度提升标签生成的准确性。  相似文献   

8.
随着计算机网络和多媒体技术的迅猛发展,针对大规模多模态图像检索的需求变得越来越广泛。如何有效解决多模态性,语义鸿沟和大规模性已经成为Web图像检索中的三大重要挑战。最近提出的语义标注和哈希技术可以分别用来解决语义鸿沟和大规模性,但它们无法涵盖目前存在的所有问题。在本文中,我们提出了语义关联多模态哈希用于多模态图像检索,它能够综合语义学习和哈希技术的优点。首先,通过基于图学习的半监督学习来增强训练样本的语义。然后构造所有样本的语义关联并将其保存在哈希函数中。学习出的哈希函数能够将所有模态均映射到统一的哈希空间中,从而支持多模态检索。在两个真实图像数据集上的实验结果证明了所提出方法的检索效果和效率。此外,实验结果也证明学习语义关联能够提高检索效果。  相似文献   

9.
手势是公益广告的重要模态形式之一,对隐喻的动态构建发挥着重要的作用。基于多模态隐喻理论,结合公益广告的语类特点,手势在多模态隐喻意义建构过程中有三种运作机制,即手势直接激活源域、手势通过转喻间接激活源域或目标域以及手势同时激活源域和目标域。公益广告中,目标域可以不呈现或者通过转喻间接呈现;手势既可以直接构建单模态隐喻,也可协同图像、语言(言语、文字)、声音等模态构建多模态隐喻;手势传达广告创作者的注意焦点。  相似文献   

10.
相较于纯文本的网络谣言,图文并茂的网络谣言形式更容易取得信任,同时也增加了谣言检测的难度。针对此类谣言形式,提出了一种融合多模态特征的中文谣言检测方法。首先,通过深度学习模型分别提取待检测信息中的文本词特征、文本的句子特征、文本的情感倾向特征、图像视觉特征和视觉特征语义向量;然后,通过注意力机制融合文本的词特征和视觉特征语义向量得到语义一致性特征;最后,将文本的句子特征、文本的情感倾向特征、图像视觉特征和语义一致性特征拼接起来得到多模态特征用于谣言检测。实验结果表明,本文提出的方法在微博多模态数据集上的准确率和F1值分别达到了89.9%和89.8%,提高了谣言检测的效果。  相似文献   

11.
收集421名鼻咽癌患者头颈部水平位T1加权(T1W)、T2加权(T2W)以及T1增强(T1C)三种模态MR图像,并由2名经验丰富的临床医生对图像中的肿瘤区域进行勾画,将其中346位患者的多模态图像及其标签作为训练集,将剩余75位患者的多模态图像及其标签作为独立测试集;分别构建单模态多维信息融合、两模态多维信息融合以及多模态多维信息融合(MMMDF)的卷积神经网络(CNN),并对模型进行训练和测试;使用Dice、豪斯多夫距离(HD)与面积差占比(PAD)评估3种模型的性能,结果表明,多模态多维融合模型的性能最优,两模态多维信息融合模型性能次之,单模态多维信息融合模型性能最差. 结果证明,多模态二维与三维特征融合的深度卷积网络能够准确有效地分割鼻咽癌MR图像中的肿瘤.  相似文献   

12.
长视频问答包含丰富的多模态语义信息和推理信息.当前,基于循环神经网络的视频问答模型难以充分保存重要记忆信息、忽略无关冗余信息和实现记忆信息高效融合.针对该问题,依据记忆网络思想,提出一种深度记忆融合模型.本模型利用记忆网络的记忆组件有效保存视频剪辑及其字幕的融合特征,提出一种多模态相似性匹配方法过滤冗余记忆信息.经过卷...  相似文献   

13.
针对多模态情感分析中存在的标注数据量少、模态间融合不充分以及信息冗余等问题,提出了一种基于对比语言-图片训练(CLIP)和交叉注意力(CA)的多模态情感分析(MSA)模型CLIP-CA-MSA。首先,该模型使用CLIP预训练的BERT模型、PIFT模型来提取视频特征向量与文本特征;其次,使用交叉注意力机制将图像特征向量和文本特征向量进行交互,以加强不同模态之间的信息传递;最后,利用不确定性损失特征融合后计算输出最终的情感分类结果。实验结果表明:该模型比其他多模态模型准确率提高5百分点至14百分点,F1值提高3百分点至12百分点,验证了该模型的优越性,并使用消融实验验证该模型各模块的有效性。该模型能够有效地利用多模态数据的互补性和相关性,同时利用不确定性损失来提高模型的鲁棒性和泛化能力。  相似文献   

14.
多模态的交通流量预测模型   总被引:2,自引:1,他引:1  
针对交通状态的多模态性,提出了多模态的交通流量预测方法.引用道路服务水平将交通状态分为6级(类)模态,并研究了不同模态与流量之间的对应关系.多模态的交通流量预测模型根据历史数据判断交通模态的改变情况,在整合自回归移动平均模型(ARIMA)预测的基础上,利用模态修正函数动态调整ARIMA预测中产生的时滞误差.以实际交通流...  相似文献   

15.
篇际互文性指文本中不同语类、话语及风格的相互融合。它是单模态文本与多模态文本的重要语篇特性。话语的"规约性"与"变异性"可激活模态文本中的"越界"话语。篇际互文性下"越界"话语的形成离不开话语的"再语境化"过程。文中在阐释单模态篇际互文性文本"再语境化"生成方式的基础上,基于与韩礼德三大元功能相对的视觉图像分析方法,探究多模态文本的意义构建,以揭示文本模态与图像模态在多模态话语中的协作性与互补性及两者协同实现的美学意义。  相似文献   

16.
视频问答(VideoQA)任务需要理解视频和问题中的语义信息生成答案。目前,基于注意力模型的VideoQA方法很难完全理解和准确定位与问题相关的视频信息。为解决上述问题,提出一种基于注意力机制的多阶段注意力模型网络(MSAMN)。该网络将视频、音频以及文本等多模态特征输入到多阶段注意力模型(MSAM)中,通过逐阶段的定位方式精准找到与回答问题相关的视频信息,用于答案生成。为了提高特征融合的有效性,提出一种三模态压缩级联双线性(TCCB)算法计算不同模态特征之间的相关性。MASMN在ZJL数据集上进行实验,平均准确率均为54.3%,比传统方法提高了近15%,比现有方法提高了近7%。  相似文献   

17.
针对后囊膜混浊并发症发病周期长、筛查范围广的问题,提出利用多模态机器学习预测后囊膜混浊并发症的计算机辅助诊断方法. 对后照影像进行感兴趣区域(ROI)提取和白色反光区域填充,所构建的异构低秩多模态融合网络(HLMF)能同时输入后照影像和视觉质量参数进行特征提取与融合,HLMF模型基于通道积融合多模态信息;采用卷积核参数低秩分解解决过拟合问题;选用Focal Loss损失函数解决类别不均衡的问题;在训练过程中还采用预训练和模态腐蚀的训练方法,使模型更好地提取单一模态的特征并进行融合. 该算法在后囊膜混浊数据集上的十折交叉验证准确率为95.63%,F1分数为96.72%. 实验结果表明,所提算法能较好地提取单模态特征并进行特征融合,相比于其他多模态融合模型有更好的性能.  相似文献   

18.
为了解决图像情感分析中存在的情感鸿沟和大的类内方差问题,提出了一种可以同时利用视觉模态和文本模态之间的深度潜在关联、视觉模态的深度线性判别和图像中层语义融合的弱监督方法.利用多模态深度网络结构找到一个视觉模态和文本模态之间最大深度关联且视觉模态具有深度判别性的潜在嵌入空间,并在该潜在空间中将文本的语义映射特征迁移到图像的判别性视觉映射特征中;结合注意力机制,设计涵盖潜在空间中映射特征的注意力网络,用于情感分类.在真实数据集上的实验结果表明,所提出的方法获得了更好的情感分类准确率.  相似文献   

19.
针对视频分割中底层特征与高层语义之间的“语义鸿沟”问题,提出了一种基于多模态融合和镜头间竞争力的场景分割算法,对视频帧的图像、文本、音频等模态进行特征提取,用欧式距离、余弦距离计算出同种模态数据的相似性,用典型相关分析法计算出不同模态数据的相关度,分别对各模态数据的相似性和相关度进行融合得到镜头之间的相似度和相关度,采用镜头间竞争力的方法分别对相似镜头和相关镜头进行场景分割并对分割出的两个场景边界集合取交集得到最终的场景边界,从而实现对视频的场景分割。实验结果表明,该方法在场景分割中具有较高的性能,查全率和查准率分别达到82.1%和86.7%。  相似文献   

20.
为了更好地揭示多模态过程的运行状态和数据分布变化规律,提高后续建模精度,提出基于最大均值差异(MMD)的多模态过程的过渡模态识别方法. 引入滑动窗口对数据进行切割,使用最大均值差异对多模态过程数据的分布差异进行度量,通过与稳定模态阈值α比较区分过程数据的稳定模态和过渡模态. 在过渡模态段内减小滑动窗口窗宽,利用过渡模态阈值β识别出过渡子模态. 数值仿真实验的模态识别结果表明,所提方法可以准确检测出输入变量期望值的阶跃变化,实现对模态的准确识别. 田纳西伊斯曼(TE)过程仿真数据实验表明,所提方法可以有效地划分出合理的模态,进而选择出分布最相近的历史模态建模,提高多模态过程的软测量建模精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号