fkodom/dilated-attention-pytorch

(Unofficial) Implementation of dilated attention from "LongNet: Scaling Transformers to 1,000,000,000 Tokens" (https://arxiv.org/abs/2307.02486)

PythonMIT

Readme
7Issues
49Stargazers
5Watchers

Stargazers

Prev
Next

Contact site admin: Geeks.