ID-Stacked Motion Sequence Generator

Untitled

《media2face》

Untitled

任务

文本驱动生成自然的人脸 landmark帧

输入：文本

输出：landmark序列帧

<aside> 💡 任务类似于上面提到的工作：《media2face》，这个工作实现了音频、文本、图片 → 动态的3D模型（4D），而我们的工作是从文本到一组landmark帧，并且landmark帧序列要符合文本的语义逻辑。任务的目的是自动生成细粒度的landmark数据，把其作为控制条件，更好地服务于下游任务。

</aside>

动机

【创新点】landmark数据是人脸视频生成任务、3D人脸驱动任务的核心控制条件，而landmark-4D数据对、landmark-video数据对数量稀缺，给相应的任务设置了阻碍。本工作通过自动生成text-landmark数据，服务下游各样的任务。