Opened this issue a month ago · 0 comments
在这门课中,gpt2的模型代码中出现这个代码,causal_mask = bias[:, :, key_length - query_length: key_length, :key_length].bool(),这个的bias和causal_mask的张量形状都是一样的,为啥还需要截取一下啊,有啥用啊?