ID-Stacked Video Maker

任务描述
文本和参考图像驱动的、可风格化的人物视频生成
输入:图片 文本
输出:视频
<aside>
💡 图片:可以是单张也可以是多张,提供人物细粒度特征,用于保持人物特征一致性
文本:描述风格化特征、事件
视频:风格化后的、人物一致性好的、符合文本描述逻辑的视频
背景的信息从何而来?是文本驱动还是从图片解构?有待思考
</aside>
动机
- 【技术支持】强大的风格图片生成器:像IP-Adapter、PhotoMaker、InstantID这类的工作,已经可以生成人物一致性好的、风格与文本描述匹配的、整体效果优秀的图片了,可以给视频生成提供很强的风格迁移参考信息。
InstantID

IP-Adapter

photomaker

- 【创新点】虽然目前有比较强的风格化图片生成工作和人物驱动视频生成工作,但是把这两个人物合并到一块的工作目前还欠缺,即端到端的风格化人物视频。
- 【创新点】基于UNet框架的条件控制方式已经趋于固定,在视频生成领域,sora的出现和大量的工作证明Diffusion-Transformer的视频生成框架不逊色与UNet-based框架,这对DiT全新基座框架的条件控制方式提出了挑战
Video Generation Backbone
| VDT
‣ | + Stable Diffusion VAE
- Patchify(t/s embedding)
- Transformer(Temporal&Spatial attn in one block)
- Diffusion Schedule
|
| --- | --- |
| LATTE
‣ | + Stable Diffusion VAE
- Patchify(t/s embedding)
- Transformer(Temporal/Spatial attn in one block)
- Diffusion Schedule |
| OpenSora
PKU-YUAN-Lab (袁粒课题组-北大信工) (github.com) | 待调研 |
《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANS- FORMERS VIA MASK MODELING》

《Latte: Latent Diffusion Transformer for Video Generation》

VDT 和 LATTE 架构大致相似,在position embedding和transformer block的设计上有不同。
VDT 特别点出了condition token concat方案的重要性,这在Latte中没有体现