bn, gn, ln adamw, adaw bert 双向attention attention的种类 elmo,bert和gpt的区别 mae为什么起作用 position embediding sin,cosine和nn.embedding(可学习) roialign triplet loss求三元组 resnet的shortcut作用 clip的改进