Fine-tune with T5 & BERT

(retrieve from 21/03/15)

Pre-processing

Data: Few example of C4 data and SQuAD

Tokenize : sentencepiece

Build Bi-directional Encoder from scratch using Trax

Model structure : 512 Embedding size, 6xEncoder, 8x multi head, using 0.1 dropout rate

positional encoding -> Masking -> Encoders -> LayerNorm -> Dense -> Softmax

Encoder detail : LayerNorm -> Attention -> Dropout -> FFNN(2048->512)