anvime/image-captioning

Praca magisterska

Jupyter Notebook

image-captioning

Praca magisterska. Praca zawiera 4 gałęzie:

main - zawiera metodę bazową
ds-lstm- podstawowy model enkoder-dekoder rozszerzony o deep stacked lstm
local-attention - podstawowy model enkoder-dekoder rozszerzony o atencję przyłączeniową
attention_transformers - model enkoder-dekoder wykorzystujący architekturę Transformer

Struktura folderów

To repozytorium zawiera jedynie niezbędny notebook. Do nauczenia podstawowego modelu potrzebna będzie następująca struktura plików:

.
./Flickr8k_Dataset - Flickr Dataset
./Flickr8k_text - Flickr Dataset
./image-captioning- to repozytorium
./glove - containing word embeding
./Pickle - empty