特征数量对求交速度的影响

Question

特征数量对求交速度的影响

T-ze-yu opened this issue a year ago · 31 comments

我使用p2p模式的kuscia API进行了求交测试，其中100W与100w求交没有特征只有标签y，31S就搞定了，然而50w与50w求交各450维特征，却要7分多，很明显原始数据的特征数量会影响求交的速度，而按逻辑求交只是索引间的计算，这是为什么呢？

T-ze-yu commented a year ago

是的

Answer 1 · 2024-03-11T09:34:22.000Z

请问有日志可以看到PSI实际运行的时间吗？

Answer 2 · 2024-03-11T09:41:00.000Z

有的
50wpsi.log
100wpsi.log

Answer 3 · 2024-03-11T09:56:09.000Z

hi @T-ze-yu ，

目前看50w求交的时候，perfetto有一个比较奇怪的停顿。请问你这边可以稳定复现这个问题吗。

Answer 4 · 2024-03-11T09:58:32.000Z

应该是可以的，我再跑下

Answer 5 · 2024-03-11T10:00:57.000Z

嗯现在卡这了

Answer 6 · 2024-03-11T10:04:49.000Z

麻烦重新上传一下日志截图，感谢！

Answer 7 · 2024-03-11T10:29:13.000Z

现在已经跑完了

Answer 8 · 2024-03-11T10:29:52.000Z

50wpsi.log

Answer 9 · 2024-03-12T01:33:41.000Z

@T-ze-yu 链接貌似是挂的，打开即刷新页面，辛苦检查后重新上传

Answer 10 · 2024-03-12T02:08:33.000Z

现在看一下50w求交的新日志，应该是可以了

Answer 11 · 2024-03-12T02:43:54.000Z

hi @T-ze-yu

这张图可以再发一下吗？感谢！

Answer 12 · 2024-03-12T02:49:05.000Z

应该就是卡在这个位置，原始图片我现在也找不到了，如果要再看，我这边也是可以复现的。

Answer 13 · 2024-03-12T02:50:42.000Z

卡在 perfetto.cc 这句吗？

Answer 14 · 2024-03-12T02:55:44.000Z

嗯，再确认一下问题数据量是50w，450维数据，就会稳定触发这个问题。

Answer 15 · 2024-03-12T02:56:24.000Z

那数据维度减小时，这个问题会缓解吗？

Answer 16 · 2024-03-12T03:03:29.000Z

推测来说应该是的，我还做了40W 450维特征的求交测试，看了日志大概也是这个问题：

Answer 17 · 2024-03-12T03:05:10.000Z

可以方便测一下 50w 200维特征吗？看一下维度是否存在影响。我们控制一下变量。

Answer 18 · 2024-03-12T03:12:36.000Z

好的，稍等

Answer 19 · 2024-03-12T03:14:25.000Z

同时麻烦确认一下secretflow的版本。感谢！

Answer 20 · 2024-03-12T03:16:48.000Z

T-ze-yu commented a year ago

Answer 21 · 2024-03-12T03:40:44.000Z

50w 200维特的日志卡这10几分钟了，不知道是不是因为任务跑太多，机器资源下降了

Answer 22 · 2024-03-12T03:42:19.000Z

但好像空闲的资源又蛮多的

Answer 23 · 2024-03-12T03:49:23.000Z

好的我们这几天会处理一下这个问题，感谢你的反馈！

Answer 24 · 2024-03-12T03:55:08.000Z

好的，感谢！另外方便补充一个问题吗，关于50w*450维数据求交后做数据分割失败了，下面是日志：
50w-split.log

Answer 25 · 2024-03-12T05:59:33.000Z

好的，感谢！另外方便补充一个问题吗，关于50w*450维数据求交后做数据分割失败了，下面是日志： 50w-split.log

看上去像是oom了

Answer 26 · 2024-03-12T06:17:00.000Z

是的，但实际内存挺大，并没有用完，一个512G，一个256G。是不是在资源分配上并没有得到足够的内存

Answer 27 · 2024-03-12T06:19:43.000Z

是的，但实际内存挺大，并没有用完，一个512G，一个256G。是不是在资源分配上并没有得到足够的内存

关于随机分割oom的问题麻烦在 https://github.com/secretflow/secretpad/issues 这里提问，感觉和算法优化和容器资源分配是有关系的，感谢！

Answer 28 · 2024-03-12T07:17:25.000Z

好的，感谢

Answer 29 · 2024-03-13T13:08:27.000Z

hi @T-ze-yu

我成功复现了您报告的问题。
经过研究，我发现这并不是一个bug。日志本身带有欺骗性，实际上程序卡住的阶段是正在读取整个csv文件，从中提取出需要使用id列产生hash值并对其进行分桶。由于必须读取整个文件，因此需要消耗大量时间，即使特征值根本没有参与运算。同时最后求交集时，由于标签值比较多，也会消耗更多的时间写入文件。

Answer 30 · 2024-03-14T06:27:59.000Z

好的，感谢回复