一些问题

Question

一些问题

YoungSeng opened this issue a year ago · 1 comments

看论文中您使用了BEAT数据集所有 Speaker的上半身的数据来训练，motion的表示是每个关节的3D 位置。请问不同人的骨架的差异是没有显式样的引入网络吗？没有使用speaker ID的one hot vector的表示，可以做到不同人的数据在预测时候的差异化嘛？会学到一个平均的结果吗？还是不同人的数据在输入网络前，会先retarget到统一的一个骨架？您觉得论文做到的用一个网络学到30个speaker的gesture，的关键是什么？

Answer 1 · 2023-07-24T17:11:12.000Z

motion是用旋转矩阵表示的；见论文中Implementation Details. 为了计算Phase，这时motion是用角加速度表示的
论文中只尝试了两个说话人，且每个说话人单独一个database，没有考虑speaker ID
“retarget到统一的一个骨架？”是什么意思，BEAT应该都是同一套骨架