ID-Stacked Video Maker

Untitled

任务描述


文本和参考图像驱动的、可风格化的人物视频生成

输入:图片 文本

输出:视频

<aside> 💡 图片:可以是单张也可以是多张,提供人物细粒度特征,用于保持人物特征一致性 文本:描述风格化特征、事件 视频:风格化后的、人物一致性好的、符合文本描述逻辑的视频

背景的信息从何而来?是文本驱动还是从图片解构?有待思考

</aside>

动机


InstantID

Untitled

IP-Adapter

Untitled

photomaker

Untitled

Video Generation Backbone


| VDT ‣ | + Stable Diffusion VAE

《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANS- FORMERS VIA MASK MODELING》

Untitled

《Latte: Latent Diffusion Transformer for Video Generation》

Untitled

VDT 和 LATTE 架构大致相似,在position embedding和transformer block的设计上有不同。

VDT 特别点出了condition token concat方案的重要性,这在Latte中没有体现