Praca magisterska. Praca zawiera 4 gałęzie:
main
- zawiera metodę bazowąds-lstm
- podstawowy model enkoder-dekoder rozszerzony o deep stacked lstmlocal-attention
- podstawowy model enkoder-dekoder rozszerzony o atencję przyłączeniowąattention_transformers
- model enkoder-dekoder wykorzystujący architekturę Transformer
To repozytorium zawiera jedynie niezbędny notebook. Do nauczenia podstawowego modelu potrzebna będzie następująca struktura plików:
.
./Flickr8k_Dataset
- Flickr Dataset./Flickr8k_text
- Flickr Dataset./image-captioning
- to repozytorium./glove
- containing word embeding./Pickle
- empty