lucidrains/self-rewarding-lm-pytorch

Implementation of the training framework proposed in Self-Rewarding Language Model, from MetaAI

PythonMIT

Issues

usage demo is not working
#32 opened 25 days ago by 652994331
0
UnboundLocalError: local variable 'self_reward_model' referenced before assignment
#24 opened 5 months ago by UbeCc
3
What's the reference model for DPO?
#31 opened 8 months ago by Draconda
1
OSError: [Errno 22] Invalid argument: 'preference_seq.memmap.npy'
#30 opened 9 months ago by Oloup
0
ModuleNotFoundError: No module named 'x_transformers'
#25 opened 10 months ago by mayankpathaklumiq
1
What changes should I make to apply the method on Llama2?
#23 opened 10 months ago by Labmem009
0
I encountered the following error when trying to run usage
#21 opened 10 months ago by Yanfors
1
How to use HF Transformers model
#10 opened a year ago by fakerybakery
3
TypeError: tuple indices must be integers or slices, not tuple
#18 opened a year ago by fakerybakery
1
RuntimeError: Placeholder storage has not been allocated on MPS device!
#15 opened a year ago by fakerybakery
2
Multiple GPUs
#14 opened a year ago by fakerybakery
0
Why use a custom sample function instead of original HuggingFace generate() function?
#11 opened a year ago by scarydemon2
1
The reward prompt is weak.
#7 opened a year ago by Minami-su
6
Default `iteration` about SPIN. (Reward model~Policy model)
#9 opened a year ago by KyujinHan
1
run spin demo
#8 opened a year ago by westlongtime
3
Is this work in progress?
#4 opened a year ago by jbdatascience
4
Help with Setting up and running ?
#3 opened a year ago by badboysm890
1
code and dataset？
#1 opened a year ago by wanghao-007
0