ID-Stacked Interactive Editing

Untitled

任务

可用文本交互的视频编辑

输入：文本图片or视频

输出：视频

<aside> 💡 文本：这里的文本一般不是长描述性的prompt，而是短频的指令，例如：“戴帽子” 视频：符合文本指令的“续写”视频

Untitled

++ “跳上台阶”

</aside>

【创新点】deepmind的genie实现了游戏视频的可交互，即输入文本or控制信号，输出“续写”视频。但是他们的工作生成的视频质量层次不齐、没有很好的应用场景（只有游戏视频）。基于人物的可交互视频，应用范围更广，对质量的要求更高。
【创新点】视频生成的可交互性本身就是一个非常新的概念，视频的可交互性是World Model的重要技术部分，一个可交互的视频可以创造一个具有反馈能力的环境，能作为强化学习的environment。

Video Instance Seg: Track Anything: Segment Anything Meets Videos
4DGS Generation: DreamGaussian4D: Generative 4D Gaussian Splatting, 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
3DGS Edit: GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting, View-Consistent 3D Editing with Gaussian Splatting
GaussianFlow: GaussianFlow: Splatting Gaussian Dynamics for 4D Content Creation
Video Inpainting: Deep Flow-Guided Video Inpainting