5/20日第一次实验总结

这一次实验复现id animator的方案

id animator	复现
数据集
celebv-hq + caption
数据集
celebv-text	id animator 是用3个开源模型做的caption，质量更高，语义更连贯
训练模块
image projector
id adapter(cross attention module)	训练模块
image projector
id adapter(cross attention module)	训练模块是和id animator一模一样的
id animator代码中有lora的部分，这是在原文中没有提到的
训练策略
id animator 直接加载了ip adapter的权重
并在该数据集上fintune	训练策略
冷启动，从0训练

实验结果： 如果从0开始训练：丝毫没有id保持的效果。如果从加载ip adapter开始训练：训练的初期视频会有颤抖，帧之间不连贯，训练后期视频连贯性变好。下面是加载了预训练权重后finetune结果。

"Iron Man soars through the clouds, her repulsors blazing”

Iron-Man-soars-through-the-clouds,-her-repulsors-blazing-4993-v15_v2.gif

可能原因分析及后续实验：

数据集问题：
1. celebv-text的文本描述是分为3个独立的部分：action、appearence、mood。我需要把他们拼接在一起，这样的整体文本语义逻辑不连贯。
- [ ] 已经跑通video-llava 和 openai chatgpt3.5，还差一个shareGPT4V就可以做完整的caption，目前shareGPT4V碰到点问题，正在debug。
模型架构
1. 原论文中是没有提到lora的，目前还不清楚lora对于整个模型的影响是什么。猜测作者是加载了ip adapter权重，并用lora在celeb数据集上finetune
- [ ] 进一步研究ip adapter的训练代码，找到train from scratch不奏效的原因，以及lora的必要性。
其他方案
- [ ] 晨宇的refnet还在复现，refnet和其他方案与unet的交互方案不一样，也要重构代码。
- [ ] 怀泽已经写好了基于video booth方案的image feature embedding代码，我需要重构一下当前代码，以方便地适配其他方案，这周把这个实验也做了。