PiotrNawrot/nanoT5

Fast & Simple repository for pre-training and fine-tuning T5-style models

PythonApache-2.0

Issues

How to change training objective from next token prediction to Masked Language Modeling?
#45 opened a month ago by HaninZeyad
0
A possible bug in the generate method
#44 opened a month ago by SiyuanHuangSJTU
1
The weird curve
#42 opened 2 months ago by nguyenvannghiem0312
1
How to replace the tokenizer with another one?
#41 opened 2 months ago by hifarer
2
nanoT5 for different embeddings
#40 opened 2 months ago by victoriazinkovich
2
checkpoint-pt-151 does not appear to have a file named config.json
#39 opened 3 months ago by dinhngoc267
1
About Pre-training objectives
#38 opened 4 months ago by SoshyHayami
1
pre-training on local C4 dataset?
#37 opened 4 months ago by TTTTCoding
1
Just a quick question to pretrain Flan-T5
#35 opened 5 months ago by hohoCode
5
Continued pretraining from official models.
#36 opened 5 months ago by IdeaKing
1
nanoT5 initializes lm_head weights with 768x too much variance, probably
#25 opened 9 months ago by Birch-san
19
Learning rate for multi-GPUs training
#34 opened 6 months ago by phucdoitoan
3
Beginner Question : Would it be wise to use this as a backbone for custom seq2seq modeling fMRI data and custom encoder?
#33 opened 6 months ago by dyhan316
2
Question about implementing whole word masking in nanoT5
#32 opened 6 months ago by brick-pid
1
Silly question: Why do you need to re-implement T5 model?
#31 opened 6 months ago by phucdoitoan
3
How to create pytorch_model.bin file?
#30 opened 6 months ago by mayanks43
1
Flash attention
#28 opened 8 months ago by Taytay
2
Larger models and training on the Pile
#29 opened 8 months ago by Taytay
5
RMS scaling issues
#15 opened a year ago by SmerkyG
15
Pre-train on different Dataset than C4
#27 opened 8 months ago by nikifori
1
Transformation to HF model
#26 opened 9 months ago
0
About pre-training on another dataset
#21 opened a year ago by tarudesu
7
self-defined loss function failed to work (torch._dynamo.exc.InternalTorchDynamoError: ln_encoder)
#24 opened a year ago by QinengWang-Aiden
4
Pre-training fails at step 30155 out of 32768 steps every time
#22 opened a year ago by QinengWang-Aiden
7
Citing Repo
#1 opened 2 years ago by dhairyadalal
4
Error enountered during multi-GPU training with torch compile enabled
#10 opened a year ago by jzhang38
2
query regrading muti-gpu
#12 opened a year ago by trinanjan12
9
AttributeError: Can't pickle local object 'IterableDataset.map.<locals>.<lambda>'
#20 opened a year ago by turian
1
Difficulty applying NanoT5 to different model and database
#19 opened a year ago by sh4dmi
2
pre-train on long context.
#16 opened a year ago by enpassanty
1
How to run on CPU
#18 opened a year ago by ratan-prasad
1
Shape mismatch warning
#14 opened a year ago by TuTruongVian
1
Pre training on my own dataset
#11 opened a year ago by trinanjan12
1
Why isn't the lr warm up from 0?
#9 opened a year ago by jzhang38
1
Pre-trained nanoT5 model on C4 corpus
#6 opened a year ago by SungHo3268
5
Resume the pre-training process
#7 opened a year ago by QizhiPei
5
Computing Rouge score during training
#3 opened a year ago by sjelassi
2
fine-tuning error: No module named adaptive.moe
#5 opened 2 years ago by fancyisbest
2
have you try any other benchmark other than SNI?
#4 opened 2 years ago by zixiliuUSC
1