Impossible d'executer Vigogne Chat avec Google Colab ou Hugging Face

Question

Impossible d'executer Vigogne Chat avec Google Colab ou Hugging Face

Closed this issue 2 years ago · 2 comments

Hi !

Que ce soit sous Colab (Compte free) ou sous Hugging Face App bofenghuang/vigogne-chat, il y a l'erreur de type Memory limit exceededlors de l’exécution de Vigogne Chat avec les modèles suivants:

    base_model_name_or_path: str = "huggyllama/llama-7b",
    lora_model_name_or_path: str = "bofenghuang/vigogne-chat-7b",

Auriez vous des suggestions pour pouvoir executer Vigogne Chat sous Colab ou HF App ?

Answer 1 · 2023-06-13T14:36:34.000Z

Hi @LeMoussel ,

Pour contourner la contrainte de mémoire, vous pourriez utiliser une version sharded comme https://huggingface.co/decapoda-research/llama-7b-hf

Answer 2 · 2023-06-16T07:03:28.000Z

Hi @bofenghuang,

j'ai appliqué la solution indiquée dans l'Issue #21, en supprimant la ligne torch_dtype=torch.float16
De la sorte, plus de contrainte mémoire sous Colab. avec l'utilisation du modéle "huggyllama/llama-7b".

if device == "cuda":
    model = AutoModelForCausalLM.from_pretrained(
        base_model_name_or_path,
        load_in_8bit=load_8bit,
        torch_dtype=torch.float16,
        device_map="auto",
    )
    model = PeftModel.from_pretrained(
        model,
        lora_model_name_or_path,
-      torch_dtype=torch.float16,
    )

Merci pour ton aide.