本实现是在 https://github.com/66RING/tiny-flash-attention.git 基础上做了一些是实现上的代码简化,如去掉了一些不必要的冗余定义、简化shared memory cute layout 定义等 对应的 blog:https://zhuanlan.zhihu.com/p/708867810