《media2face》
文本驱动生成自然的人脸 landmark帧
输入:文本
输出:landmark序列帧
<aside> 💡 任务类似于上面提到的工作:《media2face》,这个工作实现了音频、文本、图片 → 动态的3D模型(4D),而我们的工作是从文本到一组landmark帧,并且landmark帧序列要符合文本的语义逻辑。 任务的目的是自动生成细粒度的landmark数据,把其作为控制条件,更好地服务于下游任务。
</aside>