YoungSeng opened this issue a year ago · 1 comments
看论文中您使用了BEAT数据集所有 Speaker的上半身的数据来训练,motion的表示是每个关节的3D 位置。请问不同人的骨架的差异是没有显式样的引入网络吗?没有使用speaker ID的one hot vector的表示,可以做到不同人的数据在预测时候的差异化嘛?会学到一个平均的结果吗?还是不同人的数据在输入网络前,会先retarget到统一的一个骨架?您觉得论文做到的用一个网络学到30个speaker的gesture,的关键是什么?