Đào tạo một mô hình đa phương thức với các hướng dẫn bằng hình ảnh và ngôn ngữ! Mô hình được đào tạo dựa trên kiến trúc của mô hình đa phương thức nguồn mở OpenFlamingo và chỉ tinh chỉnh ở mô đun ngôn ngữ lớn và sử dụng dữ liệu instruction, mô hình được tinh chỉnh và huấn luyện trên bộ dataset tiếng Việt được cung cấp bởi VLSP_Challenge - Track 6.
- LLM model : vietcuna-3b-v2
- Visual model: CLIP
- Pretrain OpenFlamingo: openflamingo/OpenFlamingo-9B
- Mô hình được huấn luyện trên google colab với GPU A100
!python finetune.py --vision_encoder_path "ViT-L-14" \
--vision_encoder_pretrained "openai" \
--lm_path 'vilm/vietcuna-3b-v2' \
--tokenizer_path 'vilm/vietcuna-3b-v2' \
--run_name {YOUR_RUN_NAME} \
--num_epochs 1 \
--batch_size 1 \
--delete_previous_checkpoint \
--dataset_config {YOUR_DATACONFIG_PATH} \
--tuning_config {YOUR_LORACONFIG_PATH} \
--report_to_wandb \
--wandb_project {NAME_WANDB_PROJECT}\
--pretrained_path {YOUR_PRETRAINOPENFLAMINGO_PATH}