IP-adapter + emotional animate

$M = E(x_i,x_{i+1})$

建模的是两帧之间的变化，它会提取两帧的语义信息并建模变化的部分，【Motion = 变化的语义】

在VASA-1，GAIA中，motion代表的是某一帧的关键点空间位置，有其便利之处，即：

$I_j = D(I_i,M_j)$ $其中I_i提供了第i帧的人物脸部信息，M_j提供了j帧的关键点空间信息，Decoder将这张人脸根据提供的关键点进行变形$

如果按照我的方案，M代表的是两帧之间的变化语义，那么我无法简单地通过$I_i 和 M_{j-1,j}来建模I_j$，如果我同时要建模$M_{i,j}$那会非常地麻烦

！！！！！！真正的时序motion建模的优势

假设我们拥有$Motion = [M_0,M_1,M_2,M_3....M_n]$ ，我们要预测$X_n$

Insight : $M_n$应该包含到n为止一共发生了哪些事情，所以提供n之前的任意一帧，都可以通过$M_n$来预测出$I_n$

即：$\forall i<n, I_n = D(I_i,M_n)$