/IA376J_final_project

Attempting to work with DOCVQA for the final project of IA376J.

Primary LanguageJupyter NotebookMIT LicenseMIT

IA376J_final_project

Inicialmente a ideia era melhorar o pré-treinamento sobre os textos sintéticos usando a Wikipedia. Após dificultar a tarefa, um novo pré-treino não convergiu após alguns dias. Decidi mudar a atenção para a tarefa do DocVQA. A ideia é explorar se informações de layout e imagem contribuem em comparação a um baseline usando texto do OCR.