Xq0273

Xq0273's Stars

declare-lab/ferret
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique
Language:Python112
declare-lab/red-instruct
Codes and datasets of the paper Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment
Language:Python8412
shreyansh26/Red-Teaming-Language-Models-with-Language-Models
A re-implementation of the "Red Teaming Language Models with Language Models" paper by Perez et al., 2022
Language:Python274
Improbable-AI/curiosity_redteam
Official implementation of ICLR'24 paper, "Curiosity-driven Red Teaming for Large Language Models" (https://openreview.net/pdf?id=4KqkizXgXU)
Language:Jupyter Notebook6611
EasyJailbreak/EasyJailbreak
An easy-to-use Python framework to generate adversarial jailbreak prompts.
Language:Python50441
sherdencooper/GPTFuzz
Official repo for GPTFUZZER : Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts
Language:Python41752