融入变分自编码网络的文本生成三维运动人体 Incorporating variational auto-encoder networks for text-driven generation of 3D motion human body期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融入变分自编码网络的文本生成三维运动人体

引用本文：	李健,杨钧,王丽燕,王永归. 融入变分自编码网络的文本生成三维运动人体[J]. 中国图象图形学报, 2024, 29(5): 1434-1446

作者姓名：	李健杨钧王丽燕王永归

作者单位：	陕西科技大学电子信息与人工智能学院, 西安 710021;陕西科技大学文理学院, 西安 710021

基金项目：	陕西科技大学 2021 年教育信息化教学改革项目（JXJG2021-09）

摘要：	目的针对现有动态三维数字人体模型生成时不能改变体型、运动固定单一等问题，提出一种融合变分自编码器（variational auto-encoder，VAE）网络、对比语言—图像预训练（contrastive language-image pretraining，CLIP）网络与门控循环单元（gate recurrent unit，GRU）网络生成运动三维人体模型的方法。该方法可根据文本描述生成相应体型和动作的三维人体模型。方法首先，使用VAE编码网络生成潜在编码，结合CLIP网络零样本生成体型与文本表述相符的人体模型，以解决蒙皮多人线性（skinned multi-person linear，SMPL）模型参数不合理而生成不符合正常体型特征的人体模型问题；其次，采用VAE网络与GRU网络生成与文本表述相符的变长时间三维人体姿势序列，以解决现有运动生成方法仅生成事先指定的姿势序列、无法生成运动时间不同的姿势序列问题；最后，将体型特征与运动特征结合，得到三维运动人体模型。结果在HumanML3D数据集上进行人体生成实验，并与其他3种方法进行比较，相比于现有最好方法，R精度的Top1、Top2和Top3分别提高了0.031、0.034和0.028，弗雷歇初始距离（Fréchet inception distance，FID）提高了0.094，多样性提高了0.065。消融实验验证了模型的有效性，结果表明本文方法对人体模型生成效果有提升。结论本文方法可通过文本描述生成运动三维人体模型，模型的体型和动作更符合输入文本的描述。
关键词：	人体动作合成自然语言处理(NLP) 深度学习蒙皮多人线性模型变分自编码器网络
收稿时间：	2023-06-01
修稿时间：	2023-09-25
Incorporating variational auto-encoder networks for text-driven generation of 3D motion human body

Li Jian,Yang Jun,Wang Liyan,Wang Yonggui. Incorporating variational auto-encoder networks for text-driven generation of 3D motion human body[J]. Journal of Image and Graphics, 2024, 29(5): 1434-1446

Authors:	Li Jian Yang Jun Wang Liyan Wang Yonggui

Affiliation:	School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xi''an 710021, China;School of Art and Sciences, Shaanxi University of Science and Technology, Xi''an 710021, China

Abstract:

Keywords:	human motion synthesis natural language processing(NLP) deep learning skinned multi-person linear model variational auto-encoder network

	点击此处可从《中国图象图形学报》浏览原始摘要信息
	点击此处可从《中国图象图形学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏