transformer学习笔记

  1. 和conv的对比
  2. 小数据集训练问题