这一次实验复现id animator的方案

id animator 复现
数据集
celebv-hq + caption
数据集
celebv-text id animator 是用3个开源模型做的caption,质量更高,语义更连贯
训练模块
image projector
id adapter(cross attention module) 训练模块
image projector
id adapter(cross attention module) 训练模块是和id animator一模一样的
id animator代码中有lora的部分,这是在原文中没有提到的
训练策略
id animator 直接加载了ip adapter的权重
并在该数据集上fintune 训练策略
冷启动,从0训练

实验结果: 如果从0开始训练:丝毫没有id保持的效果。 如果从加载ip adapter开始训练:训练的初期视频会有颤抖,帧之间不连贯,训练后期视频连贯性变好。下面是加载了预训练权重后finetune结果。

"Iron Man soars through the clouds, her repulsors blazing”

lecun.png

Iron-Man-soars-through-the-clouds,-her-repulsors-blazing-4993-v15_v2.gif


可能原因分析及后续实验:

  1. 数据集问题:
    1. celebv-text的文本描述是分为3个独立的部分:action、appearence、mood。我需要把他们拼接在一起,这样的整体文本语义逻辑不连贯。
  2. 模型架构
    1. 原论文中是没有提到lora的,目前还不清楚lora对于整个模型的影响是什么。猜测作者是加载了ip adapter权重,并用lora在celeb数据集上finetune
  3. 其他方案