首页 | 本学科首页   官方微博 | 高级检索  
     

面向视觉数据处理与分析的解耦表示学习综述
引用本文:李雅婷,肖晶,廖良,王正,陈文益,王密. 面向视觉数据处理与分析的解耦表示学习综述[J]. 中国图象图形学报, 2023, 28(4): 903-934
作者姓名:李雅婷  肖晶  廖良  王正  陈文益  王密
作者单位:1.武汉大学计算机学院国家多媒体软件工程技术研究中心,武汉;430072;2.日本国立信息学研究所数字内容和;媒体科学研究部,东京 101-8430,日本;3.武汉大学测绘遥感信息工程国家重点实验室,武汉 430079
基金项目:湖北省自然科学基金项目(2020CFA001);湖北省重点研发计划项目(2020BIB006)
摘    要:表示学习是机器学习研究的核心问题之一。机器学习算法的输入表征从过去主流的手工特征过渡到现在面向多媒体数据的潜在表示,使算法性能获得了巨大提升。然而,视觉数据的表示通常是高度耦合的,即输入数据的所有信息成分被编码进同一个特征空间,从而互相影响且难以区分,使得表示的可解释性不高。解耦表示学习旨在学习一种低维的可解释性抽象表示,可以识别并分离出隐藏在高维观测数据中的不同潜在变化因素。通过解耦表示学习,可以捕获到单个变化因素信息并通过相对应的潜在子空间进行控制,因此解耦表示更具有可解释性。解耦表征可用于提高样本效率和对无关干扰因素的容忍度,为数据中的复杂变化提供一种鲁棒性表示,提取的语义信息对识别分类、域适应等人工智能下游任务具有重要意义。本文首先介绍并分析解耦表示的研究现状及其因果机制,总结解耦表示的3个重要性质。然后,将解耦表示学习算法分为4类,并从数学描述、类型特点及适用范围3个方面进行归纳及对比。随后,分类总结了现有解耦表示工作中常用的损失函数、数据集及客观评估指标。最后,总结了解耦表示学习在实际问题中的各类应用,并对其未来发展进行了探讨。

关 键 词:解耦表示学习  视觉数据  潜在表征  变化因素  潜空间
收稿时间:2022-01-21
修稿时间:2022-05-16

A review of disentangled representation learning for visual data processing and analysis
Li Yating,Xiao Jing,Liao Liang,Wang Zheng,Chen Wenyi,Wang Mi. A review of disentangled representation learning for visual data processing and analysis[J]. Journal of Image and Graphics, 2023, 28(4): 903-934
Authors:Li Yating  Xiao Jing  Liao Liang  Wang Zheng  Chen Wenyi  Wang Mi
Affiliation:National Engineering Research Center for Multimedia Software, School of Computer Science, Wuhan University, Wuhan 430072, China;Digital Content and Media Sciences Research Division, National Institute of Informatics, Tokyo 101-8430, Japan; State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
Abstract:
Keywords:disentangled representation learning  visual data  latent representation  factors of variation  latent space
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号