VisualQuestionAnswering

Hướng tiếp cận

Đào tạo một mô hình đa phương thức với các hướng dẫn bằng hình ảnh và ngôn ngữ! Mô hình được đào tạo dựa trên kiến trúc của mô hình đa phương thức nguồn mở OpenFlamingo và chỉ tinh chỉnh ở mô đun ngôn ngữ lớn và sử dụng dữ liệu instruction, mô hình được tinh chỉnh và huấn luyện trên bộ dataset tiếng Việt được cung cấp bởi VLSP_Challenge - Track 6.

Models

Demo

alt text alt text alt text

Huấn luyện mô hình

  • Mô hình được huấn luyện trên google colab với GPU A100
!python finetune.py --vision_encoder_path "ViT-L-14" \
                   --vision_encoder_pretrained "openai" \
                   --lm_path 'vilm/vietcuna-3b-v2' \
                   --tokenizer_path 'vilm/vietcuna-3b-v2' \
                   --run_name {YOUR_RUN_NAME} \
                   --num_epochs 1 \
                   --batch_size 1 \
                   --delete_previous_checkpoint \
                   --dataset_config {YOUR_DATACONFIG_PATH} \
                   --tuning_config {YOUR_LORACONFIG_PATH} \
                   --report_to_wandb \
                   --wandb_project {NAME_WANDB_PROJECT}\
                   --pretrained_path {YOUR_PRETRAINOPENFLAMINGO_PATH}