首页 | 本学科首页   官方微博 | 高级检索  
     

融入变分自编码网络的文本生成三维运动人体
引用本文:李健,杨钧,王丽燕,王永归.融入变分自编码网络的文本生成三维运动人体[J].中国图象图形学报,2024,29(5):1434-1446.
作者姓名:李健  杨钧  王丽燕  王永归
作者单位:陕西科技大学电子信息与人工智能学院, 西安 710021;陕西科技大学文理学院, 西安 710021
基金项目:陕西科技大学 2021 年教育信息化教学改革项目(JXJG2021-09)
摘    要:目的 针对现有动态三维数字人体模型生成时不能改变体型、运动固定单一等问题,提出一种融合变分自编码器(variational auto-encoder,VAE)网络、对比语言—图像预训练(contrastive language-image pretraining,CLIP)网络与门控循环单元(gate recurrent unit,GRU)网络生成运动三维人体模型的方法。该方法可根据文本描述生成相应体型和动作的三维人体模型。方法 首先,使用VAE编码网络生成潜在编码,结合CLIP网络零样本生成体型与文本表述相符的人体模型,以解决蒙皮多人线性(skinned multi-person linear,SMPL)模型参数不合理而生成不符合正常体型特征的人体模型问题;其次,采用VAE网络与GRU网络生成与文本表述相符的变长时间三维人体姿势序列,以解决现有运动生成方法仅生成事先指定的姿势序列、无法生成运动时间不同的姿势序列问题;最后,将体型特征与运动特征结合,得到三维运动人体模型。结果 在HumanML3D数据集上进行人体生成实验,并与其他3种方法进行比较,相比于现有最好方法,R精度的Top1、Top2和Top3分别提高了0.031、0.034和0.028,弗雷歇初始距离(Fréchet inception distance,FID)提高了0.094,多样性提高了0.065。消融实验验证了模型的有效性,结果表明本文方法对人体模型生成效果有提升。结论 本文方法可通过文本描述生成运动三维人体模型,模型的体型和动作更符合输入文本的描述。

关 键 词:人体动作合成  自然语言处理(NLP)  深度学习  蒙皮多人线性模型  变分自编码器网络
收稿时间:2023/6/1 0:00:00
修稿时间:2023/9/25 0:00:00

Incorporating variational auto-encoder networks for text-driven generation of 3D motion human body
Li Jian,Yang Jun,Wang Liyan,Wang Yonggui.Incorporating variational auto-encoder networks for text-driven generation of 3D motion human body[J].Journal of Image and Graphics,2024,29(5):1434-1446.
Authors:Li Jian  Yang Jun  Wang Liyan  Wang Yonggui
Affiliation:School of Electronic Information and Artificial Intelligence, Shaanxi University of Science and Technology, Xi''an 710021, China;School of Art and Sciences, Shaanxi University of Science and Technology, Xi''an 710021, China
Abstract:
Keywords:human motion synthesis  natural language processing(NLP)  deep learning  skinned multi-person linear model  variational auto-encoder network
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号