首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
多模态界面技术及其在多媒体检索中的应用   总被引:2,自引:0,他引:2  
多模态界面技术可以通过多种交互式设备和方法的协作 ,极大地促进人机之间相互理解与信息交流。作为信息处理领域的一个热点 ,基于内容的多媒体检索对多模态界面技术有着内在的需求。首先分析了传统的文字 /图形界面技术、多媒体界面技术和多模态界面技术的不同特性 ,进而着重从媒体表示、特征表示与查询、智能检索等方面 ,深入探讨了多模态界面技术在多媒体检索领域的应用特点  相似文献   

2.
基于综合推理的多媒体语义挖掘和跨媒体检索   总被引:6,自引:0,他引:6  
为了更准确地进行跨媒体检索,需要挖掘、学习不同类型多媒体对象之间的语义关联,为此提出一种基于综合推理模型的多媒体语义挖掘和跨媒体检索技术.首先根据多媒体对象的底层特征构造推理源,根据多媒体对象的共生关系构造影响源场来进行综合推理,并构造出多媒体语义空间;然后针对不同检索例子,根据伪相关反馈为每一个检索例子自适应地选择不同的榆索方法进行跨媒体检索.为了处理检索例子不在训练集合内的情况,提出了两阶段学习方法完成检索;同时还提出了一种基于日志的长程反馈学习算法,以提高系统性能.实验结果证明,该技术能够准确地挖掘多媒体语义,多媒体文档检索和跨媒体检索效果准确_凡稳定.  相似文献   

3.
面向用户的多媒体检索中的多模态界面框架设计   总被引:1,自引:0,他引:1  
本文提出并设计了一种面向用户的多媒体信息检索中的多模态界面框架。该框架将知识指导、语义概念学习、自然语言处理及用户特性分析等技术于一体,从而为设计通用多媒体信息检索系统奠定了基础。  相似文献   

4.
王素芳 《福建电脑》2013,(10):73-74,5
多媒体是文本、图像、视频、音频等多模态信息的综合体,每一模态都表示了丰富的语义信息,只有多媒体的融合才能表示多媒体的完整语义信息.本文介绍了多媒体融合分析与检索方法,论述了关键技术.为了提高多媒体信息检索的性能,应结合多种信息检索技术.  相似文献   

5.
基于语义学习的图像多模态检索   总被引:1,自引:0,他引:1  
针对语义鸿沟问题,在语义学习的基础上设计图像的多模态检索系统。该系统结合3种查询方式进行图像检索。基于视觉特征的查询通过特征提取与相似度匹配进行排位。基于标签的查询建立在图像自动标注的基础上,但在语义空间之外的泛化能力较差。基于语义图例的查询能够在很大程度上克服这个缺陷,通过在显式或隐式的语义空间上进行查询,使检索结果更符合人类感知。实验结果表明,与基于纹理特征的图像检索相比,基于语义图例的检索具有更高的精度及召回率。  相似文献   

6.
基于概念的检索是多媒体数据语义检索的解决途径之一。对概念进行了语义扩展,提出了基于概念的多媒体数据语义检索模型,包括人机接口、知识获取、数据获取、概念检索以及语义获取等模块,并对各模块所涉及到的问题进行了分析和探讨。  相似文献   

7.
王亚  郑博文  张欣 《计算机应用研究》2021,38(3):685-688,695
为了获得更好的三维模型检索分类性能,基于深度学习模型研究了多模态信息融合对三维模型的特征描述,在训练步骤提出相关性损失函数来指导不同模态之间的训练,提取更稳健的特征向量;最后将融合特征应用于三维模型的检索和分类,在ModelNet40数据集上进行了三维模型分类任务和检索任务评估。实验结果及与现有方法进行的对比证明了该方法的优越性,为三维模型检索分类领域提供了一种新的思路。  相似文献   

8.
张静  俞辉 《计算机应用》2008,28(1):199-201,
针对包含复杂语义信息的视频检索的需要,提出了一种基于关系代数的多模态信息融合视频检索模型,该模型充分利用视频包含的文本、图像、高层语义概念等多模态特征,构造了对应于多个视频特征的查询模块,并创新地使用关系代数表达式对查询得到的多模态信息进行融合。实验表明,该模型能够充分发挥多模型视频检索及基于关系代数表达式的融合策略在复杂语义视频检索中的优势,得到较好的查询结果。  相似文献   

9.
跨模态检索的目标是用户给定任意一个样本作为查询样例,系统检索得到与查询样例相关的各个模态样本,多模态细粒度检索在跨模态检索基础上强调模态的数量至少大于两个,且待检索样本的分类标准为细粒度子类,存在多模态数据间的异构鸿沟及细粒度样本特征差异小等难题。引入模态特异特征及模态共享特征的概念,提出一种多模态细粒度检索框架MS2Net。使用分支网络及主干网络分别提取不同模态数据的模态特异特征及模态共享特征,将两种特征通过多模态特征融合模块进行充分融合,同时利用各个模态自身的特有信息及不同模态数据间的共性及联系,增加高维空间向量中包含的语义信息。针对多模态细粒度检索场景,在center loss函数的基础上提出multi-center loss函数,并引入类内中心来聚集同类别且同模态的样本,根据聚集类内中心来间接聚集同类别但模态不同的样本,同时消减样本间的异构鸿沟及语义鸿沟,增强模型对高维空间向量的聚类能力。在公开数据集FG-Xmedia上进行一对一与一对多的模态检索实验,结果表明,与FGCrossNet方法相比,MS2Net方法 mAP指标分别提升65%和48%。  相似文献   

10.
对跨模态数据检索精确性问题,提出一种基于多模态数据融合的检索方法。采用CNN+Bi_LSTM与Glove+Bi_GRU的方法分别对图片和文本数据进行编码,并通过Transforme+LSTM对编码后数据分别提取图像和文本的语义特征,使用同模态下与不同模态间的多种相似度损失函数,对提取的图像和文本语义特征进行监督和优化。最终根据查询样本与检索结果之间的语义相似度,确定正确检索结果。实验证明,设计的多模态数据融合与检索模型,相较于其他跨模态搜索分类模型,辨别损失更低。且在模型各部分功能上,无论是引入LSTM的多模态特征提取模块,还是基于双尺度相似性计算的语义建模方法,都在数据检索中发挥了一定的作用,当k=12时,本模型相较于传统特征提取模型R@K均值9.9,相较于仅采用中线性分类器代替双尺度相似度的本模型、与仅移除LSTM使用三个头进行语义特征提取的本模型,R@K均值分别高出4.3、2.0;mAP的均值相较于其他三个模型分别高出0.12、0.07、0.03。相较于其他基线跨模态数据检索模型而言,提出的多模态数据融合与检索模型则具有更好的检索结果。当k=12时,相较于LSCO、MADLG、D...  相似文献   

11.
多通道交互已经成为人机交互领域一个重要的研究方向,对多通道输入的信息进行语义融合是其中的关键问题.提出了一种将上下文与传统语义融合相结合的方法,并将这一方法应用在面向儿童使用的讲故事原型系统中.儿童通过受限的自然语言、笔的勾画等方式进行故事创作.结果表明,笔和语音结合的多通道交互方式能够使得儿童更方便、自然地与计算机进行交互,结合上下文的语义融合方法能够在一定程度上修正输入错误.  相似文献   

12.
针对直方图无法反映色彩分布的空间信息这一缺陷,提出一种融合了空间及邻域信息的色彩直方图检索方法。以同一色彩构成的最大连通区域及其边缘区域的颜色粗糙度来反映同一颜色像素形成的区域特点及邻域信息,从而降低检索结果对色彩的绝对依赖,提高了检索的准确性。  相似文献   

13.
针对传统单因子模型无法充分利用时间序列相关信息,以及这些模型对时间序列预测准确性和可靠性较差的问题,提出一种基于多模态信息融合的时间序列预测模型——Skip-Fusion对多模态数据中的文本数据和数值数据进行融合。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型和独热编码对不同类别的文本数据进行编码表示;再使用基于全局注意力机制的预训练模型获得多文本特征融合的单一向量表示;然后将得到的单一向量表示与数值数据按时间顺序对齐;最后通过时间卷积网络(TCN)模型实现文本和数值特征的融合,并通过跳跃连接完成多模态数据的浅层和深层特征的再次融合。在股票价格序列的数据集上进行实验,Skip-Fusion模型的均方根误差(RMSE)和日收益(R)分别为0.492和0.930,均优于现有的单模态模型和多模态融合模型的结果,同时在可决系数(R-Squared)上取得了0.955的拟合优度。实验结果表明,Skip-Fusion模型能够有效进行多模态信息融合并具有较高的预测准确性和可靠性。  相似文献   

14.
刘长红  曾胜  张斌  陈勇 《计算机应用》2022,42(10):3018-3024
跨模态图像文本检索的难点是如何有效地学习图像和文本间的语义相关性。现有的大多数方法都是学习图像区域特征和文本特征的全局语义相关性或模态间对象间的局部语义相关性,而忽略了模态内对象之间的关系和模态间对象关系的关联。针对上述问题,提出了一种基于语义关系图的跨模态张量融合网络(CMTFN-SRG)的图像文本检索方法。首先,采用图卷积网络(GCN)学习图像区域间的关系并使用双向门控循环单元(Bi-GRU)构建文本单词间的关系;然后,将所学习到的图像区域和文本单词间的语义关系图通过张量融合网络进行匹配以学习两种不同模态数据间的细粒度语义关联;同时,采用门控循环单元(GRU)学习图像的全局特征,并将图像和文本的全局特征进行匹配以捕获模态间的全局语义相关性。将所提方法在Flickr30K和MS-COCO两个基准数据集上与多模态交叉注意力(MMCA)方法进行了对比分析。实验结果表明,所提方法在Flickr30K测试集、MS-COCO1K测试集以及MS-COCO5K测试集上文本检索图像任务的Recall@1分别提升了2.6%、9.0%和4.1%,召回率均值(mR)分别提升了0.4、1.3和0.1个百分点,可见该方法能有效提升图像文本检索的精度。  相似文献   

15.
基于边缘颜色分布的图像检索方法   总被引:1,自引:0,他引:1  
提出了一种新的基于边缘颜色分布的图像检索算法。该算法将不同类型边缘附近的颜色分布作为刻画图像内容的主要特征,设计了一种紧凑的2D边缘颜色直方图来对图像的边缘颜色分布特征进行描述,既利用了局部颜色特征,又考虑了不同类型边缘的空间分布信息,克服了传统颜色直方图不能反映空间信息的缺陷。实验结果表明,该算法与其他同类方法相比,有效地提高了检索性能。  相似文献   

16.
在信息检索过程中引入语义,可以大大提高信息检索准确度,其中Ontology扮演了重要的角色.基于Ontology研究了语义信息检索原理、体系结构及其模型实现的关键技术,设计并实现了基于Ontology的信息检索系统原型,对研究进行了验证.实验结果表明,基于Ontology的检索大大提高了信息的查准率和查全率.  相似文献   

17.
针对目前输电线路中防震锤部件识别精确率低,缺陷无法诊断,未充分利用其空间上下文信息的问题,提出结合DeepLabV3+语义分割网络与防震锤的空间上下文关系对其进行识别与缺陷诊断;利用图像分块和数据集预处理提高DeepLabV3+网络分割精度,将防震锤与其周围部件分割出来后,建立其空间上下文关系缩小防震锤的识别范围,提高其识别精确率;实验结果表明,图像分块与预处理能够将DeepLabV3+网络的分割精度提升到93.4%以上,DeepLabV3+网络可以有效的识别正常防震锤与缺陷防震锤,识别召回率可以达到87%以上,建立防震锤与周围部件的空间上下文关系能够提高其识别精确率到90%以上。  相似文献   

18.
曲晓光  王国宇 《计算机应用》2006,26(3):613-0614
提出了一种基于小波变化显著点和基于关键块相结合的图像检索方法。首先利用小波变换提取图像的显著点,然后将图像划分成均匀的图像块,将图像块分为有显著点的和无显著点两类。提取块的低层次特征矢量,将两幅图像之间的匹配转换成图像块之间的匹配。在图像检索时,通过对这两类图像块分别进行相似性度量,对得到的结果加以不同的权重,以实现对图像局部或全局不同要求的检索。  相似文献   

19.
一种基于本体的语义检索算法   总被引:1,自引:0,他引:1       下载免费PDF全文
本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,在数字图书馆得到了广泛的关注。给出了本体结构及其词法的形式化定义。为解决RDF在语义检索中存在的问题,利用Jena工具,提出了一种提取和处理RDF层本体处理方法,给出了一种基于本体的语义检索算法。算法基于软件工程的思想,忽略不同的本体语言、本体的RDF层集合间的差异。算法分五步骤进行,包括:将RDF层本体信息从网页中分离并构建RDF模型、对RDF模型进行集合运算、RDF层本体的查询、修正RDF层本体以及对RDF层本体的序列化。实验结果表明缩短了查询时间,提高了检索的查全率及查准率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号