Inicialmente a ideia era melhorar o pré-treinamento sobre os textos sintéticos usando a Wikipedia. Após dificultar a tarefa, um novo pré-treino não convergiu após alguns dias. Decidi mudar a atenção para a tarefa do DocVQA. A ideia é explorar se informações de layout e imagem contribuem em comparação a um baseline usando texto do OCR.
dscarmo/IA376J_final_project
Attempting to work with DOCVQA for the final project of IA376J.
Jupyter NotebookMIT