YichenBC

Pinned Repositories

alignment-attribution-code
Official Code for Paper: Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications
Language:Python64 2 88
misalignment
Language:Python10
ledllm
Language:Jupyter Notebook14 1 12
Chinese-Mistral
Chinese-Mistral: An Efficient and Effective Chinese Large Language Model
26 1 64
FigStep
[AAAI'25] Jailbreaking Large Vision-language Models via Typographic Visual Prompts
Language:Python98 3 86
LLM101n
LLM101n: Let's build a Storyteller
00
LLMs-Finetuning-Safety
We jailbreak GPT-3.5 Turbo’s safety guardrails by fine-tuning it on only 10 adversarially designed examples, at a cost of less than $0.20 via OpenAI’s APIs.
Language:Python0 0 00

YichenBC's Repositories

YichenBC/LLM101n
LLM101n: Let's build a Storyteller
00
YichenBC/LLMs-Finetuning-Safety
We jailbreak GPT-3.5 Turbo’s safety guardrails by fine-tuning it on only 10 adversarially designed examples, at a cost of less than $0.20 via OpenAI’s APIs.
Language:Python0 0 00