VisualQuestionAnswering

Hướng tiếp cận

Đào tạo một mô hình đa phương thức với các hướng dẫn bằng hình ảnh và ngôn ngữ! Mô hình được đào tạo dựa trên kiến trúc của mô hình đa phương thức nguồn mở OpenFlamingo và chỉ tinh chỉnh ở mô đun ngôn ngữ lớn và sử dụng dữ liệu instruction, mô hình được tinh chỉnh và huấn luyện trên bộ dataset tiếng Việt được cung cấp bởi VLSP_Challenge - Track 6.

Models

LLM model : vietcuna-3b-v2
Visual model: CLIP
Pretrain OpenFlamingo: openflamingo/OpenFlamingo-9B

Demo

Huấn luyện mô hình

Mô hình được huấn luyện trên google colab với GPU A100

!python finetune.py --vision_encoder_path "ViT-L-14" \
                   --vision_encoder_pretrained "openai" \
                   --lm_path 'vilm/vietcuna-3b-v2' \
                   --tokenizer_path 'vilm/vietcuna-3b-v2' \
                   --run_name {YOUR_RUN_NAME} \
                   --num_epochs 1 \
                   --batch_size 1 \
                   --delete_previous_checkpoint \
                   --dataset_config {YOUR_DATACONFIG_PATH} \
                   --tuning_config {YOUR_LORACONFIG_PATH} \
                   --report_to_wandb \
                   --wandb_project {NAME_WANDB_PROJECT}\
                   --pretrained_path {YOUR_PRETRAINOPENFLAMINGO_PATH}

mdnanh/VisualQuestionAnswering

VisualQuestionAnswering

Hướng tiếp cận

Models

Demo

Huấn luyện mô hình