MiuLab/Taiwan-LLM

Can I Disable flash attention 2 ?

bensonbs opened this issue · 2 comments

我使用v100 32GB顯示卡運行,得到錯誤。

NotImplementedError: Sharded Llama requires Flash Attention enabled models.

看起來是flash-attention不支援v100

請問我有任何方法可以避免使用 flash attention 嗎?

根據我的經驗,如果是使用 TGI 運行,在 CUDA Capability 不足的情況下,應該會顯示警告訊息並且直接不使用 Flash Attention V2,以 TITAN RTX 為例:

WARN text_generation_launcher: Unable to use Flash Attention V2: GPU with CUDA capability 7 5 is not supported for Flash Attention V2

但我沒有 V100 可以測試,根據官網資訊 V100 的 CUDA Capability 為 7.0,所以我想應該也會是類似的情況。

根據 huggingface/text-generation-inference#391 所述,你可能可以自行建置 TGI Docker,但是在沒有 Flash Attention 的情況下會不能使用 Shared 功能。

請問你是使用 TGI 嗎?有相關的錯誤訊息嗎?

vllm 應該可以使用 v100,你可以嘗試一下。如果還是不行你可以 reopen 這個 issue