YoungSeng/QPGesture

一些问题

YoungSeng opened this issue · 1 comments

看论文中您使用了BEAT数据集所有 Speaker的上半身的数据来训练,motion的表示是每个关节的3D 位置。请问不同人的骨架的差异是没有显式样的引入网络吗?没有使用speaker ID的one hot vector的表示,可以做到不同人的数据在预测时候的差异化嘛?会学到一个平均的结果吗?还是不同人的数据在输入网络前,会先retarget到统一的一个骨架?您觉得论文做到的用一个网络学到30个speaker的gesture,的关键是什么?

  1. motion是用旋转矩阵表示的;见论文中Implementation Details. 为了计算Phase,这时motion是用角加速度表示的
  2. 论文中只尝试了两个说话人,且每个说话人单独一个database,没有考虑speaker ID
  3. “retarget到统一的一个骨架?”是什么意思,BEAT应该都是同一套骨架

image