Can I Disable flash attention 2 ?

Question

bensonbs opened this issue a year ago · 2 comments

我使用v100 32GB顯示卡運行，得到錯誤。

NotImplementedError: Sharded Llama requires Flash Attention enabled models.

請問我有任何方法可以避免使用 flash attention 嗎?

Answer 1 · 2023-09-29T14:09:30.000Z

根據我的經驗，如果是使用 TGI 運行，在 CUDA Capability 不足的情況下，應該會顯示警告訊息並且直接不使用 Flash Attention V2，以 TITAN RTX 為例：

WARN text_generation_launcher: Unable to use Flash Attention V2: GPU with CUDA capability 7 5 is not supported for Flash Attention V2

但我沒有 V100 可以測試，根據官網資訊 V100 的 CUDA Capability 為 7.0，所以我想應該也會是類似的情況。

根據 huggingface/text-generation-inference#391 所述，你可能可以自行建置 TGI Docker，但是在沒有 Flash Attention 的情況下會不能使用 Shared 功能。

請問你是使用 TGI 嗎？有相關的錯誤訊息嗎？

Answer 2 · 2023-10-24T13:01:50.000Z

vllm 應該可以使用 v100，你可以嘗試一下。如果還是不行你可以 reopen 這個 issue