期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张鸿吴飞庄越挺陈建勋《计算机学报》2008,31(5):820-826

针对传统基于内容的多媒体检索对单一模态的限制,提出一种新的跨媒体检索方法.分析了不同模态的内容特征之间在统计意义上的典型相关性,并通过子空间映射解决了特征向量的异构性问题,同时结合相关反馈中的先验知识,修正不同模态多媒体数据集在子空间中的拓扑结构,实现跨媒体相关性的准确度量.实验以图像和音频数据为例验证了基于相关性学习的跨媒体检索方法的有效性. 相似文献

2.

跨媒体深层细粒度关联学习方法

下载免费PDF全文

卓昀侃綦金玮彭宇新《软件学报》2019,30(4):884-895

随着互联网与多媒体技术的迅猛发展，网络数据的呈现形式由单一文本扩展到包含图像、视频、文本、音频和3D模型等多种媒体，使得跨媒体检索成为信息检索的新趋势.然而，"异构鸿沟"问题导致不同媒体的数据表征不一致，难以直接进行相似性度量，因此，多种媒体之间的交叉检索面临着巨大挑战.随着深度学习的兴起，利用深度神经网络模型的非线性建模能力有望突破跨媒体信息表示的壁垒，但现有基于深度学习的跨媒体检索方法一般仅考虑图像和文本两种媒体数据之间的成对关联，难以实现更多种媒体的交叉检索.针对上述问题，提出了跨媒体深层细粒度关联学习方法，支持多达5种媒体类型数据（图像、视频、文本、音频和3D模型）的交叉检索.首先，提出了跨媒体循环神经网络，通过联合建模多达5种媒体类型数据的细粒度信息，充分挖掘不同媒体内部的细节信息以及上下文关联.然后，提出了跨媒体联合关联损失函数，通过将分布对齐和语义对齐相结合，更加准确地挖掘媒体内和媒体间的细粒度跨媒体关联，同时利用语义类别信息增强关联学习过程的语义辨识能力，提高跨媒体检索的准确率.在两个包含5种媒体的跨媒体数据集PKU XMedia和PKU XMediaNet上与现有方法进行实验对比，实验结果表明了所提方法的有效性. 相似文献

3.

基于Ontology的跨媒体检索技术

胡涛武港山任桐炜吉亮《计算机工程》2009,35(8):266-268

针对如何在相似媒体之间进行有效关联,描述跨媒体的相似性等问题,提出一种新的跨媒体检索方法。提取多媒体对象的低层特征,利用Ontology对其进行组织,在语义层次实现多媒体关联。实验结果证明,基于Ontology的方式可以有效完成跨媒体检索。相似文献

4.

一种支持海量跨媒体检索的集成索引结构 总被引：4，自引：0，他引：4

庄毅庄越挺吴飞《软件学报》2008,19(10):2667-2680

提出一种支持海量跨媒体检索的集成索引结构.该方法首先通过对网页的预处理,分析其中不同模态媒体对象之间的链接关系,生成交叉参照图.然后通过用户相关反馈进行调节.当用户提交一个查询对象时,首先对交叉参照图进行基于索引的快速定位,得到与查询对象相关的候选媒体对象.然后对得到的候选媒体对象进行距离运算,得到结果媒体对象.理论分析和实验表明,该方法较顺序检索具有更好的性能,非常适合海量跨媒体数据检索. 相似文献

5.

联合耦合字典学习与图像正则化的跨媒体检索方法

刘芸于治楼付强《计算机工程》2019,45(6):230-236

跨媒体检索方法多数将2个模态的原始特征映射到公共子空间,在子空间中执行跨媒体检索,忽略了判别特征的选择以及模态间的关系。为此,提出一种基于耦合字典学习和图形正则化的新型跨模态检索方法。通过关联和联合更新不同模态的字典,为不同的模态生成均匀的稀疏表示。将不同模态的稀疏表示投影到由类标签信息定义的公共子空间中,以执行跨模态匹配,同时对投影矩阵施加21范数项,选择特征空间的相关和辨别性特征。在此基础上,利用图正则化项保留模态间和模态内相似关系。实验结果表明,与典型相关分析方法相比,该方法跨媒体检索精度较高。相似文献

6.

基于语义相关性与拓扑关系的跨媒体检索算法

代刚张鸿《计算机应用》2018,38(9):2529-2534

针对如何挖掘不同模态中具有相同语义的特征数据之间的内在相关性的问题,提出了一种基于语义相关性与拓扑关系（SCTR）的跨媒体检索算法。一方面,利用具有相同语义的多媒体数据之间的潜在相关性去构造多媒体语义相关超图;另一方面,挖掘多媒体数据的拓扑关系来构建多媒体近邻关系超图。通过结合多媒体数据语义相关性与拓扑关系去为每种媒体类型学习一个最优的投影矩阵,然后将多媒体数据的特征向量投影到一个共同空间,从而实现跨媒体检索。该算法在XMedia数据集上,对多项跨媒体检索任务的平均查准率为51.73%,与联合图正则化的异构度量学习（JGRHML）、跨模态相关传播（CMCP）、近邻的异构相似性度量（HSNN）、共同的表示学习（JRL）算法相比,分别提高了22.73、15.23、11.7、9.11个百分点。实验结果从多方面证明了该算法有效提高了跨媒体检索的平均查准率。相似文献

7.

基于残差注意力网络的跨媒体检索方法

冯姣陆昶谕《计算机科学》2021,48(z1):122-126

随着多媒体技术的快速发展,跨媒体检索逐渐替代传统的单媒体检索成为主流的信息检索方式.现有跨媒体检索方法复杂度高,且不能充分挖掘数据的细节特征,在映射的过程中会产生偏移,难以学习到精准的数据关联.针对上述问题,提出了一种基于残差注意力网络的跨媒体检索方法.首先,为了更好地提取不同媒体数据的关键特征,同时简化跨媒体检索模型,提出了融入注意力机制的残差神经网络.然后,提出了跨媒体检索联合损失函数,通过约束网络的映射过程,增强网络的语义辨别能力,提高网络检索精度.实验结果表明,与现有的一些方法对比,本文提出的基于残差注意力网络的跨媒体检索方法能够较好地学习到不同媒体数据之间的关联,有效地提高了跨媒体检索的精度. 相似文献

8.

基于特征子空间学习的跨媒体检索方法 总被引：1，自引：0，他引：1

张鸿吴飞庄越挺《模式识别与人工智能》2008,21(6)

学习不同模态的多媒体数据在底层特征上的潜在关系,在降维得到的特征子空间中通过基于相似度传递的优化算法对图像和音频的聚类质量进行修正.相关反馈过程中设计了3种主动学习策略用以计算用户标注样本周围未标注样本的条件概率,从而在反馈样本有限的情况下提高跨媒体检索效率.实验结果表明该方法准确度量跨媒体的相关性,有效实现图像和音频数据之间的相互检索. 相似文献

9.

基于综合推理的多媒体语义挖掘和跨媒体检索 总被引：6，自引：0，他引：6

杨易郭同强庄越挺王文华《计算机辅助设计与图形学学报》2009,21(9)

为了更准确地进行跨媒体检索,需要挖掘、学习不同类型多媒体对象之间的语义关联,为此提出一种基于综合推理模型的多媒体语义挖掘和跨媒体检索技术.首先根据多媒体对象的底层特征构造推理源,根据多媒体对象的共生关系构造影响源场来进行综合推理,并构造出多媒体语义空间;然后针对不同检索例子,根据伪相关反馈为每一个检索例子自适应地选择不同的榆索方法进行跨媒体检索.为了处理检索例子不在训练集合内的情况,提出了两阶段学习方法完成检索;同时还提出了一种基于日志的长程反馈学习算法,以提高系统性能.实验结果证明,该技术能够准确地挖掘多媒体语义,多媒体文档检索和跨媒体检索效果准确_凡稳定. 相似文献

10.

基于字典学习的跨媒体检索技术

戚玉丹张化祥刘一鹤《计算机应用研究》2019,36(4)

在研究跨媒体信息检索时,对于不同模态数据的异构性提出了挑战,针对如何更好的克服异构问题以提高多模态数据之间的检索精度,提出了一种基于字典学习的新跨媒体检索技术。首先,通过字典学习方法学习两个不同模态数据之间的稀疏系数,然后,通过特征映射方案由两个不同的投影矩阵分别把它们投入共同的特征子空间,最后,通过标签对齐同一类来增强不同模态之间的相关性。实验结果表明,与传统的同构子空间学习方法相比,基于字典的算法分类性能优越,该实验方法在两个数据集上优于几种最先进的方法。相似文献

11.

Latent semantic factorization for multimedia representation learning

Zhang Hong Huang Yu Xu Xin Zhu Ziqi Deng Chunhua 《Multimedia Tools and Applications》2018,77(3):3353-3368

Due to the rapid development of multimedia applications, cross-media semantics learning is becoming increasingly important nowadays. One of the most challenging issues for cross-media semantics understanding is how to mine semantic correlation between different modalities. Most traditional multimedia semantics analysis approaches are based on unimodal data cases and neglect the semantic consistency between different modalities. In this paper, we propose a novel multimedia representation learning framework via latent semantic factorization (LSF). First, the posterior probability under the learned classifiers is served as the latent semantic representation for different modalities. Moreover, we explore the semantic representation for a multimedia document, which consists of image and text, by latent semantic factorization. Besides, two projection matrices are learned to project images and text into a same semantic space which is more similar with the multimedia document. Experiments conducted on three real-world datasets for cross-media retrieval, demonstrate the effectiveness of our proposed approach, compared with state-of-the-art methods.

相似文献

12.

A cross-media distance metric learning framework based on multi-view correlation mining and matching

Hong Zhang Xingyu Gao Ping Wu Xin Xu 《World Wide Web》2016,19(2):181-197

With the explosion of multimedia data, it is usual that different multimedia data often coexist in web repositories. Accordingly, it is more and more important to explore underlying intricate cross-media correlation instead of single-modality distance measure so as to improve multimedia semantics understanding. Cross-media distance metric learning focuses on correlation measure between multimedia data of different modalities. However, the existence of content heterogeneity and semantic gap makes it very challenging to measure cross-media distance. In this paper, we propose a novel cross-media distance metric learning framework based on sparse feature selection and multi-view matching. First, we employ sparse feature selection to select a subset of relevant features and remove redundant features for high-dimensional image features and audio features. Secondly, we maximize the canonical coefficient during image-audio feature dimension reduction for cross-media correlation mining. Thirdly, we further construct a Multi-modal Semantic Graph to find embedded manifold cross-media correlation. Moreover, we fuse the canonical correlation and the manifold information into multi-view matching which harmonizes different correlations with an iteration process and build Cross-media Semantic Space for cross-media distance measure. The experiments are conducted on image-audio dataset for cross-media retrieval. Experiment results are encouraging and show that the performance of our approach is effective. 相似文献

13.

基于潜语义主题加强的跨媒体检索算法

黄育张鸿《计算机应用》2017,37(4):1061-1064

针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索（LSTR）算法。首先,利用隐狄利克雷分布（LDA）模型构造文本语义空间,然后以词袋（BoW）模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析（CCA）、SM（Semantic Matching）、SCM（Semantic Correlation Matching）算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。相似文献

14.

Cross-media retrieval using query dependent search methods

Yi Yang Author Vitae Author Vitae Dong Xu Author Vitae Author Vitae Liang-Tien Chia Author Vitae 《Pattern recognition》2010,43(8):2927-2936

The content-based cross-media retrieval is a new type of multimedia retrieval in which the media types of query examples and the returned results can be different. In order to learn the semantic correlations among multimedia objects of different modalities, the heterogeneous multimedia objects are analyzed in the form of multimedia document (MMD), which is a set of multimedia objects that are of different media types but carry the same semantics. We first construct an MMD semi-semantic graph (MMDSSG) by jointly analyzing the heterogeneous multimedia data. After that, cross-media indexing space (CMIS) is constructed. For each query, the optimal dimension of CMIS is automatically determined and the cross-media retrieval is performed on a per-query basis. By doing this, the most appropriate retrieval approach for each query is selected, i.e. different search methods are used for different queries. The query dependent search methods make cross-media retrieval performance not only accurate but also stable. We also propose different learning methods of relevance feedback (RF) to improve the performance. Experiment is encouraging and validates the proposed methods. 相似文献

15.

面向跨媒体检索的层级循环注意力网络模型

下载免费PDF全文

綦金玮彭宇新袁玉鑫《中国图象图形学报》2018,23(11):1751-1758

目的跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语义的不同媒体数据存在语义一致性,且数据内部蕴含着丰富的细粒度信息,为跨媒体关联学习提供了重要依据。现有方法仅仅考虑了不同媒体数据之间的成对关联,而忽略了数据内细粒度局部之间的上下文信息,无法充分挖掘跨媒体关联。针对上述问题,提出基于层级循环注意力网络的跨媒体检索方法。方法首先提出媒体内-媒体间两级循环神经网络,其中底层网络分别建模不同媒体内部的细粒度上下文信息,顶层网络通过共享参数的方式挖掘不同媒体之间的上下文关联关系。然后提出基于注意力的跨媒体联合损失函数,通过学习媒体间联合注意力来挖掘更加精确的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程中的语义辨识能力,从而提升跨媒体检索的准确率。结果在2个广泛使用的跨媒体数据集上,与10种现有方法进行实验对比,并采用平均准确率均值MAP作为评价指标。实验结果表明,本文方法在2个数据集上的MAP分别达到了0.469和0.575,超过了所有对比方法。结论本文提出的层级循环注意力网络模型通过挖掘图像和文本的细粒度信息,能够充分学习图像和文本之间精确跨媒体关联关系,有效地提高了跨媒体检索的准确率。相似文献

16.

Cross-media retrieval by intra-media and inter-media correlation mining

Xiaohua Zhai Yuxin Peng Jianguo Xiao 《Multimedia Systems》2013,19(5):395-406

相似文献