这一次实验复现id animator的方案
| id animator | 复现 | |
|---|---|---|
| 数据集 | ||
| celebv-hq + caption | ||
| 数据集 | ||
| celebv-text | id animator 是用3个开源模型做的caption,质量更高,语义更连贯 | |
| 训练模块 | ||
| image projector | ||
| id adapter(cross attention module) | 训练模块 | |
| image projector | ||
| id adapter(cross attention module) | 训练模块是和id animator一模一样的 | |
| id animator代码中有lora的部分,这是在原文中没有提到的 | ||
| 训练策略 | ||
| id animator 直接加载了ip adapter的权重 | ||
| 并在该数据集上fintune | 训练策略 | |
| 冷启动,从0训练 |
实验结果: 如果从0开始训练:丝毫没有id保持的效果。 如果从加载ip adapter开始训练:训练的初期视频会有颤抖,帧之间不连贯,训练后期视频连贯性变好。下面是加载了预训练权重后finetune结果。
"Iron Man soars through the clouds, her repulsors blazing”


可能原因分析及后续实验: