l294265421/alpaca-rlhf

Finetuning LLaMA with RLHF (Reinforcement Learning with Human Feedback) based on DeepSpeed Chat

PythonMIT

Issues

deepspeed.initialize的一些疑惑
#8 opened 2 years ago by iamsile
8
增大max_prompt_len和max_ans_len训练会出现非法的内存访问问题
#16 opened a year ago by Luoxiaohei41
0
训练问题
#15 opened a year ago by wanghao-007
0
Step 3: Actor model和Reward model使用不同的tokenizer
#14 opened a year ago by Kevin-myxu
0
step2和step3中padding side似乎不一样？
#13 opened a year ago by qiancheng99
1
A question about setting tokens
#12 opened 2 years ago by hepj987
1
element 0 of tensors does not require grad and does not have a grad_fn
#11 opened 2 years ago by Bill-Orz
5
v100 step3 oom
#6 opened 2 years ago by iamsile
12
关于Step3中是否需要把生成的answer中eos后面token mask掉
#9 opened 2 years ago by Ablustrund
1
Fix pad_token_id bug
#10 opened 2 years ago by Ablustrund
2
how to run it, need more details
#7 opened 2 years ago by SeekPoint
2
stop at step2 evaluation_reward
#5 opened 2 years ago by murphypei
4
训练效果怎么样
#1 opened 2 years ago by Curious-chen
3
reward model在v100上训练时会卡住不动
#4 opened 2 years ago by iamsile
2
Steps
#2 opened 2 years ago by syngokhan
1
v100训练时显存oom
#3 opened 2 years ago by iamsile
2