IA376J_final_project

Inicialmente a ideia era melhorar o pré-treinamento sobre os textos sintéticos usando a Wikipedia. Após dificultar a tarefa, um novo pré-treino não convergiu após alguns dias. Decidi mudar a atenção para a tarefa do DocVQA. A ideia é explorar se informações de layout e imagem contribuem em comparação a um baseline usando texto do OCR.

dscarmo/IA376J_final_project

IA376J_final_project