首页 | 本学科首页   官方微博 | 高级检索  
     

基于多模态子空间学习的语义标签生成方法
引用本文:田枫,李欣,刘芳,李闯,孙小强,杜睿山. 基于多模态子空间学习的语义标签生成方法[J]. 山东大学学报(工学版), 2020, 50(3): 31-37,44. DOI: 10.6040/j.issn.1672-3961.0.2019.364
作者姓名:田枫  李欣  刘芳  李闯  孙小强  杜睿山
作者单位:东北石油大学计算机与信息技术学院,黑龙江 大庆163318;东北石油大学计算机与信息技术学院,黑龙江 大庆163318;东北石油大学计算机与信息技术学院,黑龙江 大庆163318;东北石油大学计算机与信息技术学院,黑龙江 大庆163318;东北石油大学计算机与信息技术学院,黑龙江 大庆163318;东北石油大学计算机与信息技术学院,黑龙江 大庆163318
基金项目:国家自然科学基金资助项目(61502094);东北石油大学优秀中青年科研创新团队资助项目(KYCXTD201903);黑龙江省高等教育教学改革研究项目(SJGY20180079);黑龙江省高等教育教学改革研究项目(SJGY20190098);黑龙江省哲学社会科学研究规划项目资助项目(19SHE280);大庆市哲学社会科学规划研究项目(DSGB2019042)
摘    要:基于已有的视觉空间和文本空间上标签相关性建模方法,提出一种多模态子空间学习的语义标签生成方法。通过建立视觉特征相似图,以非线性方式重构“图像-标签”相关性,进而将图像的视觉模态表示和标签的文本模态表示统一到多模态子空间中,并保证空间变换前后具备结构保持。在该空间中,标签的文本模态与图像的视觉内容模态信息彼此互补,语义相关的图像和标签映射到空间中相近的样本点,进而将语义标签生成问题转换为子空间内图像的近邻标签搜索问题。结果表明,该方法在FLICKR-25K数据集上,性能达到36.88%,在NUS-WIDE数据集上,性能达到44.17%,多模态子空间学习的语义标签生成方法可以大幅度提升标签生成的准确性。

关 键 词:图像标签生成  多模态学习  子空间学习  空间变换  结构保持
收稿时间:2019-05-14

A semantictag generation method based on multi-model subspace learning
Feng TIAN,Xin LI,Fang LIU,Chuang LI,Xiaoqiang SUN,Ruishan DU. A semantictag generation method based on multi-model subspace learning[J]. Journal of Shandong University of Technology, 2020, 50(3): 31-37,44. DOI: 10.6040/j.issn.1672-3961.0.2019.364
Authors:Feng TIAN  Xin LI  Fang LIU  Chuang LI  Xiaoqiang SUN  Ruishan DU
Affiliation:School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, Heilongjiang, China
Abstract:A multi-model subspace learning semantic tag generation method was proposed, whic was based on the visual space and label space tag correlation modeling method separately. This method reconstructed the "image-tag" correlation in a non-linear manner by establishing a visual feature similarity map, thereby unifying the visual modal representation of the image and the text modal representation of the tag into a multi-model subspace, and ensuring space structure preservation before and after conversion. In this space, the text modal information of the label and the modal information of the visual content of the image were complementary to each other. The semantically related images and labels were mapped to similar sample points in the space, and the semantic label generation problem was then transformed into the nearest label-neighbors retrieval problem. The results showed that the performance of the proposed method was 36.88% on FLICKR-25K data set, and 44.17% on NUS-WIDE data set, which indicated that the proposed method could greatly improve the accuracy of label generation.
Keywords:image tag generation  multimodal learning  subspace learning  space transformation  structure preservation  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《山东大学学报(工学版)》浏览原始摘要信息
点击此处可从《山东大学学报(工学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号