首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于多模态概念关联图的视频检索   总被引:1,自引:0,他引:1  
为了有效地提高基于概念的视频检索的检索性能,提出一种新颖的基于多模态概念关联图的视频检索方法.首先通过分析查询与概念之间的组织关系得到网状关系模型描述,并基于该模型构建概念关联图;然后提出查询与概念的多模态映射结构,将多模态查询融入概念关联图,增强概念扩展的针对性;之后使用流形排序动态地扩展索引概念集;全局稳态后采用正交的概念融合方法计算视频索引值,用于视频检索.与多种典型的基于概念的视频检索方法相比,文中方法的平均检索精度增幅达14.6%~86.2%.此外,实验结果表明,该方法在实际的交互式视频检索系统中也具有良好的适用性.  相似文献   

2.
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,本文提出了一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,本文提出了一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出了一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.  相似文献   

3.
基于多模态子空间相关性传递的视频语义挖掘   总被引:2,自引:0,他引:2  
在视频语义信息理解和挖掘中,充分利用图像、音频和文本等多模态媒质之间的交互关联是非常重要的研究方向.考虑到视频的多模态和时序关联共生特性,提出了一种基于多模态子空间相关性传递的语义概念检测方法来挖掘视频的语义信息.该方法对所提取视频镜头的多模态底层特征,根据共生数据嵌入(co-occurrence data embedding)和相似度融合(SimFusion)进行多模态子空间相关性传递而得到镜头之间的相似度关系,接着通过局部不变投影(locality preserving projections)对原始数据进行降维以获得低维语义空间内的坐标,再利用标注信息训练分类模型,从而可对训练集外的测试数据进行语义概念检测,实现视频语义信息挖掘.实验表明该方法有较高的准确率.  相似文献   

4.
基于多模态信息挖掘融合的视频检索技术   总被引:1,自引:0,他引:1  
基于内容的多媒体检索特别是视频检索,由于多媒体数据本身具有复杂的语义,所以极大地提高了检索的难度.算法着眼于视频本身挖掘出充分的资源信息并且将这些信息加以融合来提高视频检索的性能.基于这种思想,提出一种多模态视频检索模型以及相应的手动式搜索和交互式搜索的算法方案.搜索策略在TRECVID视频检索比赛中取得了不错的成绩.  相似文献   

5.
目的 视频描述定位是视频理解领域一个重要且具有挑战性的任务,该任务需要根据一个自然语言描述的查询,从一段未修剪的视频中定位出文本描述的视频片段。由于语言模态与视频模态之间存在巨大的特征表示差异,因此如何构建出合适的视频—文本多模态特征表示,并准确高效地定位目标片段成为该任务的关键点和难点。针对上述问题,本文聚焦于构建视频—文本多模态特征的优化表示,提出使用视频中的运动信息去激励多模态特征表示中的运动语义信息,并以无候选框的方式实现视频描述定位。方法 基于自注意力的方法提取自然语言描述中的多个短语特征,并与视频特征进行跨模态融合,得到多个关注不同语义短语的多模态特征。为了优化多模态特征表示,分别从时序维度及特征通道两个方面进行建模: 1)在时序维度上使用跳连卷积,即一维时序卷积对运动信息的局部上下文进行建模,在时序维度上对齐语义短语与视频片段; 2)在特征通道上使用运动激励,通过计算时序相邻的多模态特征向量之间的差异,构建出响应运动信息的通道权重分布,从而激励多模态特征中表示运动信息的通道。本文关注不同语义短语的多模态特征融合,采用非局部神经网络(non-local neural network)建模不同语义短语之间的依赖关系,并采用时序注意力池化模块将多模态特征融合为一个特征向量,回归得到目标片段的开始与结束时刻。结果 在多个数据集上验证了本文方法的有效性。在Charades-STA数据集和ActivityNet Captions数据集上,模型的平均交并比(mean intersection over union,mIoU)分别达到了52.36%和42.97%,模型在两个数据集上的召回率R@1 (Recall@1)分别在交并比阈值为0.3、0.5和0.7时达到了73.79%、61.16%和52.36%以及60.54%、43.68%和25.43%。与LGI (local-global video-text interactions)和CPNet (contextual pyramid network)等方法相比,本文方法在性能上均有明显的提升。结论 本文在视频描述定位任务上提出了使用运动特征激励优化视频—文本多模态特征表示的方法,在多个数据集上的实验结果证明了运动激励下的特征能够更好地表征视频片段和语言查询的匹配信息。  相似文献   

6.
目前家装客服系统中主要依靠人工方式进行装修案例检索,导致该系统不能满足用户对咨询服务快捷、及时的需求而且人力成本高,故提出一种基于特征融合的装修案例跨模态检索算法。针对多模态数据的语义信息挖掘不充分,模型检索精度低等问题,对现有的风格聚合模块进行改进,在原始模块中引入通道注意力机制,以此来为每组装修案例中不同图片的特征向量添加合适的权重,从而增强包含更多有用信息的重要特征并削弱其他不重要的特征。同时,为充分利用多模态信息,设计一种适用于检索场景下的多模态特征融合模块,该模块能够自适应地控制2种不同模态的特征向量进行一系列的融合操作,以实现跨模态数据间的知识流动与共享,从而生成语义更丰富、表达能力更强的特征向量,进一步提升模型的检索性能。在自建的装修案例多模态数据集上将该方法与其他方法进行比较,试验结果表明本文方法在装修案例检索上具有更优越的性能。  相似文献   

7.
针对传统情感分析方法无法解决短视频情感表达问题以及现有多模态情感分析方法准确率不高、不同模态信息之间交互性差等问题,通过对多模态情感分析方法进行研究,结合时域卷积网络(TCN)和软注意力机制建立了复合层次融合的多模态情感分析模型。该模型首先将视频中提取到的文本特征、视频面部特征和音频特征进行维度均衡,然后将得到的不同模态的信息特征进行复合式融合,即先将单模态信息进行融合得到双模态特征信息,再将得到的三个双模态信息进行融合,得到最终的三模态信息,最后将得到的三模态信息和每个单模态信息进行融合得到最终的多模态情感特征信息。每次融合的特征信息都经过TCN网络层进行序列特征的提取,将最终得到的多模态特征信息通过注意力机制进行筛选过滤后用于情感分类,从而得到预测结果。在数据集CMU-MOSI和CMU-MOSEI上的实验表明,该模型能够充分利用不同模态间的交互信息,有效提升多模态情感分析的准确率。  相似文献   

8.
精彩事件检测在体育视频语义分析领域具有很高的学术研究价值和广泛的市场应用前景.利用隐条件随机场(hidden conditional random field,HCRF)模型在表达和识别语义事件方面的强大功能,创新性地提出了一种融合了HCRF和情感激励模型(affective arousal model,AAM)的精彩事件检测方法.首先,通过精彩事件视频结构语义分析,定义了13种多模态语义线索,以准确描述精彩事件富含的语义信息;其次,在基于概念格的多模态语义线索聚类基础上,添加时域特征信息,以构建特征值加权的情感激励模型,得到了各类精彩事件的情感激励值;最后,在小规模训练样本情况下,有效建立了各类精彩事件检测的HCRF模型,基于视频语义镜头序列、情感激励值序列和精彩事件之间的映射关系,从多模态语义线索、视频结构语义、情感语义等多个维度挖掘了精彩事件的潜在规律,实现了同一HCRF模型下各类精彩事件的同时检测.实验证明了该方法的有效性.  相似文献   

9.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法mAP指标分别提升65%和48%。  相似文献   

10.
多媒体交叉参照检索系统研究   总被引:4,自引:0,他引:4  
描述并实现了一个面向数字图书馆的多媒体交叉参照检索系统.该系统将对多模态数据的检索无缝地融合到一个系统中,基于交叉参照图模型,多模态交叉参照搜索引擎综合计算媒体对象与查询之间在语义和内容层上的相似度;系统还支持用户相关反馈调整交叉参照图模型.实验结果表明,该系统能够比较有效地进行多模态交叉参照检索.  相似文献   

11.
设计和实现一个支持语义的分布式视频检索系统:"语寻"。该系统利用一个改进的视频语义处理工具(该工具基于IBM VideoAnnEx标注工具,并增加镜头语义图标注和自然语言处理的功能)对视频进行语义分析和标注,生成包含语义信息的MPEG-7描述文件,然后对视频的MPEG-7描述文件建立分布式索引,并同时分布式存储视频文件;系统提供丰富的Web查询接口,包括关键字语义扩展查询,语义图查询以及自然语句查询,当用户提交语义查询意图后,便能够迅速地检索到感兴趣的视频和片段,并且可以浏览点播;整个系统采用分布式架构,具备良好的可扩展性,并能够支持海量视频信息的索引和检索。  相似文献   

12.
13.
14.
基于模糊语言方法的信息检索系统的研究   总被引:4,自引:2,他引:2  
该文提出了一个基于模糊语言方法的信息检索系统模型。该系统分为查询界面子系统、数据库子系统和检索子系统三大部分。在查询界面子系统,用布尔表达式表示用户的查询请求,并对每个查询关键词赋予了两种不同语义的语言值权重,该权重表达了用户的模糊检索要求;在数据库子系统,用索引词一文档模糊矩阵表示待检索的文档,对每个索引词。根据其在文档中的出现频率大小。引入了数值权重;在检索子系统,运用模糊语言方法,对用户输入的布尔查询表达式与索引词一文档模糊矩阵进行自底向上的模糊匹配,最后返回满足用户要求的检索结果。相对于传统的基于查询关键词精确匹配的检索系统而言,该系统能较好地满足用户查询要求中的灵活性。  相似文献   

15.
The complex structure of semantic data still poses a challenge in storing, querying, and organizing Web information. Although researchers have proposed various semantic database system approaches over the years, it seems that most systems have tried to provide industrial-strength scalability too soon. Consequently, most semantic databases still rely on the relational model of storing data and still use SQL-like query languages for data retrieval. The db4OWL semantic database prototype addresses many of the shortcomings of current systems and features native OWL-querying as well as the ability to store and query multiple ontologies concurrently.  相似文献   

16.
孙志军  郑烇  袁婧  刘恒  王篙 《计算机科学》2012,39(6):107-110,146
在信息检索领域,语义检索技术较传统的关键字检索,无论在检索效果还是用户体验方面,都有诸多优势。语义检索融合了信息检索、语义分析以及信息融合等诸多方法,已成为现阶段该领域研究的一项重要技术。在Lu-cene索引技术基础之上,提出了语义检索的方法,即对语句进行语义分析,获得一种描述语句浅层语义信息的形式化表示,并对这种形式化表示建立索引;将表述语义联系的多层次相似度通过信息融合技术进行融合,并将其映射成查询语句与索引数据之间的相似度,达到语义检索的目的。  相似文献   

17.
基于内容的多媒体数据库系统引擎CDB   总被引:3,自引:0,他引:3  
CDB(Content-based DataBase)是一种基于内容的多媒体数据库引擎,可以嵌入到通用的对象一关系数据库中,使数据库系统综合支持对多媒体数据的常规和基于内容的壹询.本文首先阐述CDB的体系结构,它把信息检索和数据检索结合到数据库中,支持多媒体数据库的基于内容的建立、操纵和维护;然后给出其层次型内容模型,描述多媒体内容的时空结构特征以及信息线索;最后描述用于CDB的基于内容信息检索技术及其设计和实现的用户壹询和操纵接口,包括示例壹询、主观颜色壹询、视频概要和浏览、扩展SQL内容壹询等.  相似文献   

18.
目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性。为解决这些问题,本文提出深度多模态融合的服装风格检索方法。方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索。设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57 s/次。与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53 s/次。结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性。  相似文献   

19.
语义视频检索的现状和研究进展   总被引:9,自引:0,他引:9  
概述了图像的可视化特征如颜色、纹理、形状和运动信息,时空关系分析,以及多特征目标提取和相似度量度;分析了视频语义的提取,语义查询、检索;探讨了视频语义检索的性能评估,存在的问题和发展方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号