ID-Stacked Interactive Editing

任务
可用文本交互的视频编辑
输入:文本 图片or视频
输出:视频
<aside>
💡 文本:这里的文本一般不是长描述性的prompt,而是短频的指令,例如:“戴帽子”
视频:符合文本指令的“续写”视频

++ “跳上台阶”

</aside>
动机
- 【创新点】deepmind的genie实现了游戏视频的可交互,即输入文本or控制信号,输出“续写”视频。但是他们的工作生成的视频质量层次不齐、没有很好的应用场景(只有游戏视频)。基于人物的可交互视频,应用范围更广,对质量的要求更高。
- 【创新点】视频生成的可交互性本身就是一个非常新的概念,视频的可交互性是World Model的重要技术部分,一个可交互的视频可以创造一个具有反馈能力的环境,能作为强化学习的environment。
参考文献
- Video Instance Seg: Track Anything: Segment Anything Meets Videos
- 4DGS Generation: DreamGaussian4D: Generative 4D Gaussian Splatting, 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
- 3DGS Edit: GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting, View-Consistent 3D Editing with Gaussian Splatting
- GaussianFlow: GaussianFlow: Splatting Gaussian Dynamics for 4D Content Creation
- Video Inpainting: Deep Flow-Guided Video Inpainting