$M = E(x_i,x_{i+1})$

建模的是两帧之间的变化,它会提取两帧的语义信息并建模变化的部分,【Motion = 变化的语义】

在VASA-1,GAIA中,motion代表的是某一帧的关键点空间位置,有其便利之处,即:

$I_j = D(I_i,M_j)$ $其中I_i提供了第i帧的人物脸部信息,M_j提供了j帧的关键点空间信息,Decoder将这张人脸根据提供的关键点进行变形$

如果按照我的方案,M代表的是两帧之间的变化语义,那么我无法简单地通过$I_i 和 M_{j-1,j}来建模I_j$,如果我同时要建模$M_{i,j}$那会非常地麻烦

!!!!!! 真正的时序motion建模的优势

假设我们拥有$Motion = [M_0,M_1,M_2,M_3....M_n]$ ,我们要预测$X_n$

Insight : $M_n$应该包含到n为止一共发生了哪些事情,所以提供n之前的任意一帧,都可以通过$M_n$来预测出$I_n$

即 :$\forall i<n, I_n = D(I_i,M_n)$