Awesome security in diffusion models

concept erasure
concept debiasing
Backdoor attack
Backdoor defense
Adversarial attack
Inference attack
Copyright
A tool for defense

Concept erasure

Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models

Ablating Concepts in Text-to-Image Diffusion Models

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis

Erasing Concepts from Diffusion Models

Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models

Inst-Inpaint: Instructing to Remove Objects with Diffusion Models

Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models

Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

Unified Concept Editing in Diffusion Models

Implicit Concept Removal of Diffusion Models

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers

All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models

One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications

EraseDiff: Erasing Data Influence in Diffusion Models

Separable Multi-Concept Erasure from Diffusion Models

SalUn Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation

Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?

Get What You Want, Not What You Don't: Image Content Suppression for Text-to-Image Diffusion Models

Localizing and Editing Knowledge in Text-to-Image Generative Models

UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models

Universal Prompt Optimizer for Safe Text-to-Image Generation

Circumventing Concept Erasure Methods For Text-to-Image Generative Models

MACE: Mass Concept Erasure in Diffusion Models

Position: Towards Implicit Prompt For Text-To-Image Models

Editing Massive Concepts in Text-to-Image Diffusion Models

Removing Undesirable Concepts in Text-to-Image Generative Models with Learnable Prompts

On Mechanistic Knowledge Localization in Text-to-Image Generative Models

Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning

R.A.C.E. : Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model

Pruning for Robust Concept Erasing in Diffusion Models

Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning

Text Guided Image Editing with Automatic Concept Locating and Forgetting

Robust Concept Erasure Using Task Vectors

Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient

Data Attribution for Text-to-Image Models by Unlearning Synthesized Images

CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models

Concept debiasing

Instructing Text-to-Image Generation Models on Fairness

Debiasing Pretrained Generative Models by Uniformly Sampling Semantic Attributes

De-stereotyping Text-to-image Models through Prompt Tuning

Stable Bias: Evaluating Societal Representations in Diffusion Models

Debiasing Vision-Language Models via Biased Prompts

Discovering and Mitigating Biases in CLIP-based Image Editing

Unified Concept Editing in Diffusion Models

Finetuning Text-to-Image Diffusion Models for Fairness

Fair Text-to-Image Diffusion via Fair Mapping

Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation

Debiasing Text-to-Image Diffusion Models

Balancing Act: Distribution-Guided Debiasing in Diffusion Models

Training Unbiased Diffusion Models From Biased Dataset

Severity Controlled Text-to-Image Generative Model Bias Manipulation

OpenBias: Open-set Bias Detection in Text-to-Image Generative Models

SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation

FairRAG: Fair Human Generation via Fair Retrieval Augmentation

EquiPrompt: Debiasing Diffusion Models via Iterative Bootstrapping in Chain of Thoughts

Backdoor attack on diffusion model

How to Backdoor Diffusion Models?

TrojDiff: Trojan Attacks on Diffusion Models with Diverse Targets

VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models

Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis

Text-to-Image Diffusion Models can be Easily Backdoored through Multimodal Data Poisoning

BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models

From Trojan Horses to Castle Walls: Unveiling Bilateral Backdoor Effects in Diffusion Models

The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline

Personalization as a Shortcut for Few-Shot Backdoor Attack against Text-to-Image Diffusion Models

Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models

Invisible Backdoor Attacks on Diffusion Models

A Recipe for Watermarking Diffusion Models

Backdoor defense on diffusion model

DisDet: Exploring Detectability of Backdoor Attack on Diffusion Models

How to remove backdoors in diffusion models?

Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift

Ufid: A unified framework for input-level backdoor detection on diffusion models

FreezeAsGuard: Mitigating Illegal Adaptation of Diffusion Models via Selective Tensor Freezing

TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors

Adversarial attack on diffusion model

Inference attack on diffusion model

Copyright on diffusion model

A Recipe for Watermarking Diffusion Models

The Stable Signature: Rooting Watermarks in Latent Diffusion Models

Tree-Ring Watermarks: Fingerprints for Diffusion Images that are Invisible and Robust

DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models

“RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification

Gaussian Shading: Provable Performance-Lossless Image Watermarking for Diffusion Models

“Lazy” Layers to Make Fine-Tuned Diffusion Models More Traceable

A Training-Free Plug-and-Play Watermark Framework for Stable Diffusion

ModelLock: Locking Your Model With a Spell

Disguised Copyright Infringement of Latent Diffusion Models

WMAdapter: Adding WaterMark Control to Latent Diffusion Models

AquaLoRA: Toward White-box Protection for Customized Stable Diffusion Models via Watermark LoRA

Steganalysis on Digital Watermarking: Is Your Defense Truly Impervious?

Diffusion model as a tool for defense

Black-box Backdoor Defense via Zero-shot Image Purification

DataElixir: Purifying Poisoned Dataset to Mitigate Backdoor Attacks via Diffusion Models

I will update periodically...

csyufei/Awesome-security-in-diffusion-models