缺陷:

  1. 复杂场景描述形的文本prompt,无法生效。(无法生成与文本对应的复杂场景)
  2. 表情不受控制,人物只会毫无表情地说话
  3. 当我文本不指定背景描述时,背景就会混乱。无法很好地建模背景,更别说复杂场景了。

创新点:

  1. 人物、场景(前景、背景)都可高质量建模的视频生成 【id-animator的升级版】


  2. 表情可控的、id保持的、符合文本描述的人脸肖像。【id保持、表情可控】

输入:image + text

Untitled

“Spider Man” + “Happy”

输出: video

Spider-Man.-4993-1.0-0.8-v15_v2.gif

need-to-do

表情动态控制

文献

  1. 《GAIA: ZERO-SHOT TALKING AVATAR GENERATION》
  2. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
  3. InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation
  4. FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization
  5. EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars