LLM-Tuning-Safety/LLMs-Finetuning-Safety

We jailbreak GPT-3.5 Turbo’s safety guardrails by fine-tuning it on only 10 adversarially designed examples, at a cost of less than $0.20 via OpenAI’s APIs.

PythonMIT

Issues

A survey on a line of work following (Qi. et al. 2023)
#8 opened 3 months ago by huangtiansheng
0
Error because of `all_reduce` on `float` instead of `torch.Tensor`
#6 opened 4 months ago by ain-soph
1
temp not zero during inference
#7 opened 7 months ago by ShengYun-Peng
2
Quantized model training of llama gives error
#5 opened a year ago by lihkinVerma
1
How the pure_bad_dataset was created??
#4 opened a year ago by lihkinVerma
1
SafeTensors issue
#3 opened a year ago by lihkinVerma
1
How about the response quality beyond the finetune domain
#2 opened a year ago by wqw547243068
1