ziya2预训练的语料拼接是如何通过attention mask规避的

Question

Opened this issue 7 months ago · 5 comments

同问+1

Answer 1 · 2023-11-23T02:12:57.000Z

同问＋１

Answer 2 · 2023-12-06T03:17:15.000Z

只需要把当前token前面不属于同一个doc的token对应的attention_mask设置成0即可，不同doc通过eos即可区分。

Answer 3 · 2023-12-11T03:47:50.000Z

只需要把当前token前面不属于同一个doc的token对应的attention_mask设置成0即可，不同doc通过eos即可区分。
@ganzhiruyi
但是这种方式生成的attention_mask是不是不能用flash attention呀？或者说自己改flash attention?

Answer 4 · 2023-12-11T03:56:19.000Z

可以用flash attention triton