ID-Stacked Video Maker

Untitled

任务描述

文本和参考图像驱动的、可风格化的人物视频生成

输入：图片文本

输出：视频

<aside> 💡 图片：可以是单张也可以是多张，提供人物细粒度特征，用于保持人物特征一致性文本：描述风格化特征、事件视频：风格化后的、人物一致性好的、符合文本描述逻辑的视频

背景的信息从何而来？是文本驱动还是从图片解构？有待思考

</aside>

【技术支持】强大的风格图片生成器：像IP-Adapter、PhotoMaker、InstantID这类的工作，已经可以生成人物一致性好的、风格与文本描述匹配的、整体效果优秀的图片了，可以给视频生成提供很强的风格迁移参考信息。

InstantID

Untitled

IP-Adapter

Untitled

photomaker

Untitled

【创新点】虽然目前有比较强的风格化图片生成工作和人物驱动视频生成工作，但是把这两个人物合并到一块的工作目前还欠缺，即端到端的风格化人物视频。
【创新点】基于UNet框架的条件控制方式已经趋于固定，在视频生成领域，sora的出现和大量的工作证明Diffusion-Transformer的视频生成框架不逊色与UNet-based框架，这对DiT全新基座框架的条件控制方式提出了挑战

| VDT ‣ | + Stable Diffusion VAE

Patchify(t/s embedding)
Transformer(Temporal&Spatial attn in one block)
Diffusion Schedule | | --- | --- | | LATTE ‣ | + Stable Diffusion VAE
Patchify(t/s embedding)
Transformer(Temporal/Spatial attn in one block)
Diffusion Schedule | | OpenSora PKU-YUAN-Lab (袁粒课题组-北大信工) (github.com) | 待调研 |

《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANS- FORMERS VIA MASK MODELING》

Untitled

《Latte: Latent Diffusion Transformer for Video Generation》

Untitled

VDT 和 LATTE 架构大致相似，在position embedding和transformer block的设计上有不同。

VDT 特别点出了condition token concat方案的重要性，这在Latte中没有体现