Papers

bilibili(论文分享):https://space.bilibili.com/80356866/video

Table of Contents

DP Theory

Differential Adversary Definition

CDP(central DP)有一个完全可信的中心方,敌手是外界。而LDP(local DP)认为中心方是诚实但好奇的。

CDP

Title Team/Main Author Venue and Year Key Description
Differential privacy Cynthia Dwork ICALP/2006 首次提出差分隐私的定义
Programming Differential Privacy (Book) Joseph P. Near and Chiké Abuah 2021 讲诉了DP的概念定理和机制等,并附有简单代码呈现(简单入门推荐)
The Algorithmic Foundations of Differential Privacy(Book) Cynthia Dwork 2014 DP的定义理论,高级组合和相关机制等的完整证明推导(更加理论)【拉普拉斯、严格差分、高斯机制、松弛差分】
Differential Privacy From Theory to Practice (Book) Ninghui Li 2014 除了一些基本定理和机制,用了具体的实际例子讲诉了DP的用法及DP的伦理探讨(更加实用化)【Chapter1、Chapter2】,原作者讲解

LDP

Title Team/Main Author Venue and Year Key Description
本地化差分隐私研究综述 **人民大学 Journal of Software/2018 介绍了本地化差分隐私的原理与特性,总结和归纳了LDP当前研究工作,重点阐述了频数统计、均值统计的LDP机制设计【vedio】
RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response Google ACM SIGSAC /2014 1.RAPPOR的分类和对应扰动方法。2.Differential Privacy loss of RAPPOR(主要是多维)
Locally Differentially Private Protocols for Frequency Estimation Purdue University USENIX/2017 1.提出了一个Pure LDP Protocols,并基于Pure LDP Protocols给出了其方差和频数估计的公式。2.提出OUE(UE=basic RAPPOR),给出了q的最佳选择和方差。【vedio】
Collecting High-Dimensional and Correlation-Constrained Data with Local Differential Privacy Rong Du sensor, mesh and ad hoc communications and networks/2021 该文章重要的是针对LDP的高维度情况,本篇重点在于推断多维RR的概率关系: 1、进行属性之间相关性的度量(首先会属性会分为不同的簇,簇之间独立不相干,簇之内的属性相关),定义了p这个变量定义来定理相关性(基于协方差) 2、提出UDLDP,基于以上在单个属性上定义LDP,并提出CBP
Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy Thông T. Nguyên et al. arxiv/2016 提出了Harmony,用于包含数值和类别属性的多维数据的LDP下的均值和频数统计。主要是连续型数据直接随机的对称扰动成两个相反数,然后保证均值无偏,误差边界比用Lap小。
Collecting and Analyzing Multidimensional Data with Local Differential Privacy Ning Wang et al. ICDE/2019 核心是单维数据LDP的收集,多维是一个简单扩展。单维下文章发现了拉普拉斯加噪和DM(Duchi)的优缺点,两个方法随着eps的增大有一个交点。文章结合两个方法的优点提出PM方法,随后引入alpha参数升级为HM得到更小的误差边界 【vedio】
A Comprehensive Survey on Local Differential Privacy Wuhan University Security and Communication Networks/2020 目前看起来较为新较为全面的LDP综述,对于LDP的各种机制和应用都有概括。可以反复进行参考
Utility-Optimized Local Differential Privacy Mechanisms for Distribution Estimation Takao Murakami USENIX Security/2019 针对LDP下的不同回答(属性),文章认为有些是敏感的需要保护,有些是不敏感的不需要保护,由此提出一种新的LDP叫ULDP,ULDP使得在同样的预算下做更少的扰动,使得方差误差更小。【vedio】

Privacy Measurement Method

DP

其中分为严格的差分隐私和松弛的差分隐私,DP隐私损失度量可以查阅上面的CDP相关文献。

Title Team/Main Author Venue and Year Key Description
Differential privacy Cynthia Dwork ICALP/2006 首次提出差分隐私的定义
Programming Differential Privacy (Book) Joseph P. Near and Chiké Abuah 2021 讲诉了DP的概念定理和机制等,并附有简单代码呈现(简单入门推荐)
The Algorithmic Foundations of Differential Privacy(Book) Cynthia Dwork 2014 DP的定义理论,高级组合和相关机制等的完整证明推导(更加理论)【拉普拉斯、严格差分、高斯机制、松弛差分】
Differential Privacy From Theory to Practice (Book) Ninghui Li 2014 除了一些基本定理和机制,用了具体的实际例子讲诉了DP的用法及DP的伦理探讨(更加实用化)【Chapter1、Chapter2】,原作者讲解

RDP(MA)

此前的MA(monments accountant)目前来看就是RDP,区别在于RDP从一开始的散度就用了高阶矩进行度量,而MA是在分布上进行高阶矩度量,不过最后的表达形式几乎一致,两者**也一致。

Title Team/Main Author Venue and Year Key Description
Deep Learning with Differential Privacy Martín Abadi CCS/2016 首次提出高斯下采样机制并利用Moments accountant技术进行隐私损失度量 【vedio】
Rényi Differential Privacy Ilya Mironov Security Foundations Symposium/2017 Rényi 差分隐私的定义、性质和结论。主要关注里面的高斯机制(无下采样),组合性质及转为DP的公式。【vedio】
Subsampled Rényi Differential Privacy and Analytical Moments Accountant Yu-Xiang Wang AISTATS /2018 RDP和MA的直观对比,主要给出了一个RDP高斯下采样的一个隐私损失上界,有很多论文引用这个上界的结论。
Rényi Differential Privacy of the Sampled Gaussian Mechanism Ilya Mironov 2019 给出了Rényi Differential Privacy of the Sampled Gaussian Mechanism 各种情况的隐私损失公式,里面的3.3的公式目前应用于各个开源库的隐私计算中(更为简洁)
Hypothesis Testing Interpretations and Rényi Differential Privacy Balle B AISTATS/2020 定理21给出了更为紧凑的RDP转DP的公式(目前开源库opacus应用的是这个转换)

ZCDP

Title Team/Main Author Venue and Year Key Description
Concentrated Differential Privacy: Simplifications, Extensions, and Lower Bounds UMark Bun 2016 提出ZCDP的定义及ZCDP和DP的关系(ZCDP也是从瑞丽散度来定义的)。不过和RDP不同的是,ZCDP的$\alpha\in(1,+\infty)$,如果细致的选择$\alpha$,RDP的计算出的隐私损失要小于ZCDP。RDP与ZCDP对比参考
Differentially Private Model Publishing for Deep Learning Gatech SP/2019 提出了ZCDP的采样和随机排列机制

GDP

Title Team/Main Author Venue and Year Key Description
Gaussian Differential Privacy University of Pennsylvania 2019 首次提出一种基于假设建议的新的新的差分隐私-GDP,文章包括GDP的定义,性质和机制用法等 【vedio】原作者讲解
Deep Leaning with Gaussian Differential Privacy University of Pennsylvania 2020 提炼了上面的Gaussian Differetial Privacy的结论公式,区别在于给出了一个基于泊松采样的GDP
Federated f-Differential Privacy University of Pennsylvania AISTATS/2021 样本级的差分隐私保护,提出了强联邦和弱联邦(个人认为弱联邦没什么意义),隐私度量采用GDP。
DISTRIBUTED GAUSSIAN DIFFERENTIAL PRIVACY VIA SHUFFLING University of Pennsylvania ICLR(workshop)/2021 采用f-dp去证明shuffle模型,在f-dp处主要求第一类错误率和第二类错误率,然后得到一个最大的u。在shuffle中就去找这两类错误率,文中的shuffle证明思路采用Cheu等人的shuffle证明,从布尔求和及实数求和两个场景去证明shuffle满足的差分隐私。【vedio】

Bayesian DP

TO DO

《Data-Aware Privacy-Preserving Machine Learning》

Privacy Amplification Technology

samlping

目前的采样还是从CDP的角度出发衡量的

Title Team/Main Author Venue and Year Key Description
On Sampling, Anonymization, and Differential Privacy: Or, k-Anonymization Meets Differential Privacy Purdue University 2011 给出了最原始的采样隐私预算公式和证明
Rényi Differential Privacy of the Sampled Gaussian Mechanism Ilya Mironov 2019 给出了Rényi Differential Privacy of the Sampled Gaussian Mechanism 各种情况的隐私损失公式,里面的3.3的公式目前应用于各个开源库的隐私计算中(更为简洁)

shuffle

Title Team/Main Author Venue and Year Key Description
The Privacy Blanket of the Shuffle Model Borja Balle 2019 最为经典的shuffle证明。首先指出,对于shuffle模型,整个shuffle中的数据集应当看成整体,从而才有相邻数据集,针对这个数据集整体满足差分隐私。其次,采用数据相关和数据无关将整体数据分割成两部分,最大化敌手,使得最后只需要分析数据无关的部分,即隐私毯子,随机性在隐私毯子中。【vedio】
Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling Vitaly Feldman arxiv/2020 和隐私毯子类似的证明**,不过假设的敌手知道的背景知识没有隐私毯子那么全面,每一个扰动的输出都会影响隐私性。在数据相关部分,进一步分成p/2和p/2进行分析。得到的隐私界比隐私毯子更紧凑。

DP and Meachine Learning

本章集中在如何进行更高效机器学习集合差分隐私训练

Meachine Learning

Title Team/Main Author Venue and Year Key Description
On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation Sebastian Bach PLOS ONE/2015 利用LRP(分层相关传播)算法,反向求出每个神经网络中每个元素的相关性贡献和输入像素对预测函数f的贡献
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks Jonathan Frankle ICLR/2019 文章认为每一个大网络中藏着一个小的子网络可以表达模型,称为中奖网络。先初始化模型然后训练到一定精度,按照网络中每个神经元权值大小排序前百分之X得到一个mask,即子网络,然后从一开始的初始化模型上重新用这个子网络训练。
Prospect Pruning: Finding Trainable Weights at Initialization using Meta-Gradients Oxford ICLR/2022 文章提出前景剪枝,一开始初始化一个全为1的mask,带着mask进行几轮训练,然后反向得到梯度,再用梯度对mask求导,得到每个mask对应的梯度,文章称为元梯度。然后对这些mask上的元梯度按照值的大小进行排序,进而确定最后的mask。该方法预训练只需要几步即可确定,而且是oneshot的剪枝。

Meachine Learning with DP

Title Team/Main Author Venue and Year Key Description
Deep Learning with Differential Privacy Martín Abadi CCS/2016 首次将差分隐私和深度学习梯度下降结合提出DPSGD算法 【vedio】
Differentially Private Model Publishing for Deep Learning Gatech SP/2019 1.提出了ZCDP的下采样机制。2.提出了自适应的噪声系数下降
Concentrated Differentially Private Gradient Descent with Adaptive per-Iteration Privacy Budget University of Georgia ACM SIGKDD/2018 基于梯度的变化来自适应进行隐私预算分配,其实就是根据梯度的变化来进行噪声系数的自适应变化,**是梯度大的时候多加噪,梯度小的时候少加噪
An Adaptive and Fast Convergent Approach to Differentially Private Deep Learning University of Nanjing INFOCOM/2020 1.在原有的梯度下降法RMSPROP上加上DP。2.提出了梯度中逐元素的自适应裁剪(裁剪阈值的自适应,每个梯度元素对应一个裁剪阈值),这个裁剪值根据RMSPROP方法中每轮每个元素积累的值来衡量 【vedio】
Tempered Sigmoid Activations for Deep Learning with Differential Privacy Nicolas Papernot AAAI/2021 在原有的DPSGD上,对于神经网络结构中的激活函数用缓和的sigmod函数-tanh(有界函数)来替代Relu(无界函数),有界函数可以使得梯度控制在某个阈值中,从而让裁剪范数C不会大于梯度范数值。
Semi-Supervied Knowledge Transfer For Deep Learning From Private Training Data Nicolas Papernot ICLR/2017 提出了差分隐私结合机器学习的新范式,构建teacher model(私有数据集)的标签投票作为输出的DP query,利用标签也就不可避免得引入了knowledge transfer的方式来将student model(公共数据集)作为原模型的影子【vedio】
Three Tools for Practical Differential Privacy Koen Lennart van der Veen Machine Learning/2018 提出三种提高DPSGD精度的方法:1、训练前进行完整性检查。2、进行分层裁剪(没给隐私度量方式)3、大批量训练(每次训练采样率加大)
Differentially Private Learning Needs Better Features (or Much More Data) Stanford ICLR/2021 该论文以Nicolas的tanh优化为baseline进行比对,提出了人工的特征提取(handcrafted features)的方式,用了ScatterNet先进行特征提取,分别用ScatterNet+Linear model和ScatterNet+CNN都有很好的效果,目前看起来是最高的准确率(但是添加了预处理的步骤),该论文有代码,提供了相关超参数
Automatic Clipping: Differentially Private Deep Learning Made Easier and Stronger AWS AI ICLR/2022 该论文以Nicolas的tanh优化为baseline进行比对,提出了最小化裁剪范数,然后整个裁剪加噪后的式子可以简化成裁剪范数和学习率的线性关系。作者提出只要取一个很小的裁剪范数,然后调整学习率就可以获得高的准确率,即固定一个很小的裁剪范数即可(范数裁剪不会影响梯度方向,因为是整体线性裁剪)。后面作者加了一个gamma在裁剪的时候使得收敛性得以证明,也比之前的baseline效果好一点点。这篇文章的结合DP的收敛性分析值得借鉴。
DPNAS: Neural Architecture Search for Deep Learning with Differential Privacy Chinese Academy of Sciences national conference on artificial intelligence/2021 这篇论文是寻找最适合DP深度学习的网络结构,文章会在每层都提供一些网络设计,然后遍历的去尝试,哪种组合会更好,这篇文章实现的准确率比上一篇还高。他们发现了SELU激活函数表现比tanh好。
Label differential privacy via clustering Google arxiv/2021 提出了标签差分隐私,即对标签进行KRR扰动满足差分,但是在对标签扰动之前先进行聚类,使得相同分布的样本标签在同一簇中,聚类的过程有进行差分隐私加噪在标签上。然后簇中进行样本标签的扰动。最后在loss函数中行乘以对应扰动机制的逆进行矫正。以此完成图像分类任务。
Local Differential Privacy for Deep Learning RMIT University IEEE Internet of Things/2020 本篇文章给出了在下采样和池化层之后,对数据特征进行扰动,在进行全连接层之前进行扰动。比较核心在于对整个梯度进行编码,利用十进制转二进制,在进行比特的扰动。后文引入的优化方法的参数a存在偷换概念的问题,相当于引入了一个新的隐私预算,但是缺忽视掉了。
Differential Privacy Meets Neural Network Pruning Kamil Adamczewski arxiv/2023 文章将传统按权值剪枝的技术和DPSGD进行结合,确定剪枝的mask是通过公共数据集得到的。进行DPSGD结合有两点好处,一是在进行裁剪的时候,只对参与训练的神经元进行裁剪,也就是减少了裁剪幅度,也相当于double clip。其二加噪声时,只对参与训练的神经元加噪,这样减少了噪声对模型的影响,尤其在大模型下。

GNN

Title Team/Main Author Venue and Year Key Description
Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications University of Virginia KDD/2022 图联邦学习综述,对于FL结合graph三种异质情况的分类:1、客户端之间点重合;2、客户端之间边缺失;3、客户端之间数据异质(这个和传统联邦一致)
Graph Sparsification via Meta-Learning Graph Sparsification via Meta-Learning ICDE(workshop)/2021 在节点分类任务中,通过对邻接矩阵求导来进行邻接矩阵的稀疏化,对应边为1的地方,求导梯度值越大,越应该置为0

GNN with DP

Title Team/Main Author Venue and Year Key Description
GAP: Differentially Private Graph Neural Networks with Aggregation Perturbation Sina Sajadmanesh USENIX/2023 在非端到端的图机器学习中,提出边级别和节点级别的图差分隐私。其主要想法是在消息传递,即特征聚合的时候利用CDP的概念进行加噪,在聚合前进行特征归一化从而获得每个节点特征的l2范数的bound,以获得敏感度。
Node-Level Differentially Private Graph Neural Networks Google ICLR(workshop)/2022 将DPSGD应用到图的节点分类任务,主要是限制图的最大度,从而利用N叉树的总节点个数去算出每个节点在K跳的情况下影响到多少个节点的gradient,从而确定敏感度。并有一个针对这个场景的新的采样放大的隐私预算推导
SoK: Differential Privacy on Graph-Structured Data SoK: Differential Privacy on Graph-Structured Data Arxiv/2022 图结合DP的综述文章

DP and Federated Learning

Federated Leaning

想看更多的联邦学习文献推荐可以转到 :

Awesome-Federated-Learning-on-Graph-and-GNN-papers

Awesome-Federated-Machine-Learning

个性化联邦学习代码仓

Title Team/Main Author Venue and Year Key Description
A Survey on Federated Learning Systems: Vision, Hype and Reality for Data Privacy and Protection NUS IEEE Transactions on Knowledge and Data Engineering/2021 从各个维度对联邦学习进行总结分类,还有联邦学习主流开源库的对比,是比较完善全面的联邦学习综述
Communication-efficient learning of deep networks from decentralized data H Brendan McMahan AISTATS/2017 首次提出了FedAvg算法,即本地迭代多轮再参与联邦平均,可以大大的节省通讯成本
Federated Optimization in Heterogeneous Networks University of Pennsylvania Proceedings of Machine Learning and Systems/2020 针对Non-iid场景提出FedProx算法,与FedAvg的区别就是在客户端本地的损失函数上加了正则项(同时考虑中心方模型)防止本地迭代过拟合
Adaptive Federated Learning in Resource Constrained Edge Computing Systems Shiqiang Wang JSAC/2019 在本地迭代资源与中心方聚合资源受限的情况下,最优化本地迭代次数,即最优化客户端参与中心方聚合的频率(文章的引言讲到如果不考虑资源受限,本地迭代一次就参与联邦是最好的,这里的迭代一次应该是一次epoch,需要训练完所有样本,不训练完本地所有样本可能这个结论不成立)
Layer-wised Model Aggregation for Personalized Federated Learning Hong Kong Polytechnic University CVPR/2022 中心方的加权平均上对每个客户端的模型每层的参数对实现了个性化的加权,权重的生成利用超网络,对每个客户端每层参数进行再学习,用每个客户端的模型和上一轮中心方模型的差当作损失值进行最小化。后面进一步为了降低通讯成本,选择本地保留权重大的层不参与联邦。 【vedio】
Tackling the Objective Inconsistency Problem in Heterogeneous Federated Optimization Carnegie Mellon University NIPS/2020 考虑了不同客户端的算力不同,假设客户端存在异质的算力资源(即不同的本地迭代次数的能力)提出FedNova算法。

Horizontal-FL with DP

client-Level

保护的是客户端的参与信息,将客户端的模型看成一个数据,联邦中心方非敌手

Title Team/Main Author Venue and Year Key Description
Learning differentially private recurrent language models H. B. McMahan Learning/2017 首次提出了DP-FedAvg和DP-FedSGD,采样是对客户端进行采样,加噪在中心方。敏感度的计算基于采样率,每个client的联邦权重得到。【vedio】
Differentially private federated learning: A client level perspective R. C. Geyer Cryptography and Security/2017 和DP-FedAvg的区别在于客户端上传的模型在中心方进行裁剪,这样就可以进行自适应的裁剪操作(比如取各个客户端模型的范数中值作为裁剪范数)
Federated Learning with Differential Privacy: Algorithms and Performance Analysis Nanjing University of Science and Technology IEEE Transactions on Information Forensics and Security/2019 先进行上行链路的隐私保护,然后再基于上行链路的加噪再对下行链路进行加噪,给出了收敛性分析。本篇论文虽然在本地模型加噪,但是敏感度的选择是基于客户端数量,属于client-level

sample-Level

保护客户端下样本的参与信息,每个客户端下的样本看成一个数据,将联邦中心方看成敌手

Title Team/Main Author Venue and Year Key Description
User-Level Privacy-Preserving Federated Learning: Analysis and Performance Optimization Nanjing University of Science and Technology IEEE Transactions on Mobile Computing /2021 在客户端采样而不是客户端中的样本采样,但同样套用了MA的隐私度量方式(合理性存疑),后面加了一个基于隐私预算自适应最优迭代次数的方法,其实就是变相的自适应隐私预算分配。本篇论文是逐样本裁剪,且对于相邻数据集敏感度的选择看起来是simple-level【vedio】
Differentially Private Federated Learning on Heterogeneous Data France Institut Polytechnique de Paris AISTATS/2022 基于Non-IID,在原有的联邦算法SCAFFOLD的基础上加上DP形成DP-SCAFFOLD算法
DP-FL: a novel differentially private federated learning framework for the unbalanced data Xixi Huang World Wide Web/2020 将DPAGD-CNN算法集合联邦机器学习,DPAGD-CNN是集中式机器学习下差分隐私预算的自适应分配算法
Federated f-Differential Privacy University of Pennsylvania AISTATS/2021 样本级的差分隐私保护,提出了强联邦和弱联邦(个人认为弱联邦没什么意义),隐私度量采用GDP
Adap DP-FL: Differentially Private Federated Learning with Adaptive Noise Jie Fu Trustcom/2022 主要是两个自适应点,一个是不同客户端不同轮的自适应裁剪范数,一个是不同轮的自适应噪声系数衰减。
DPAUC: Differentially Private AUC Computation in Federated Learning Jiankai Sun 2022 作者举了一个联邦下客户端模型根据本地测试集进行性能评测算出AUC给中心方的场景,该场景认为AUC(ROC curve)会泄露客户端本地测试集隐私信息,故在传给中心方相关FP和FN等数值上加拉普拉斯噪声进行隐私保护。

LDP-FL

上面的会把模型看成一个整体,敏感度的计算是模型参数的L2范数作为指标衡量。LDP的联邦下,模型参数的每一个神经元权值看成一个LDP要保护的维度,每个神经元是串行的隐私关系。裁剪是针对每个单独神经元进行裁剪。 或者没有客户端中心方做小批量梯度下降,一般这种场景一个客户端只有一个样本数据,如果有多个样本数据会训练多个梯度上传给联邦中心方

Title Team/Main Author Venue and Year Key Description
ESA:A Nove lPrivacy Preserving Framework Renmin University of China Journal of Computer Research and Development /2021 系统的介绍ESA框架(基于shuffle的LDP)及应用
FLAME: Differentially Private Federated Learning in the Shuffle Model Renmin University of China AAAI/2021 这个是标准LDP结合联邦,裁剪是对每个神经元进行裁剪,隐私预算是分配到每个神经元上的。提出了SS-Double协议,即通过随机采样的方式加shuffle(文章需要idx做标记,应该是对维度进行shuffle)双重隐私放大,通过数值填充的方式将采样提供的的隐私放大效应与混洗模型的隐私放大效应进行组合。扰动方式是对梯度编码然后随机扰动。整体框架基于ESA。
Shuffled Model of Differential Privacy in Federated Learning Google AISTATS/2021 提出了CLDP-SGD算法,先对客户端进行采样,再对客户端下的样本进行采样,最后对不同客户端的梯度shuffle,这里有多个样本梯度,客户端会传给中心方多个梯度,这边本地基于编码扰动进行加噪。
Shuffle Gaussian Mechanism for Differential Privacy Seng Pei Liew 2022 本地客户端进行高斯加噪后得到一个梯度,然后对不同客户端的梯度进行shuffle进行隐私放大。并用不放回随机采样和泊松采样的高斯机制结合shuffle进行理论证明(基于RDP)。
The Privacy Blanket of the Shuffle Model Borja Balle 2019 最为经典的shuffle证明。首先指出,对于shuffle模型,整个shuffle中的数据集应当看成整体,从而才有相邻数据集,针对这个数据集整体满足差分隐私。其次,采用数据相关和数据无关将整体数据分割成两部分,最大化敌手,使得最后只需要分析数据无关的部分,即隐私毯子,随机性在隐私毯子中。【vedio】
Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling Vitaly Feldman 2020 和隐私毯子类似的证明**,不过假设的敌手知道的背景知识没有隐私毯子那么全面,每一个扰动的输出都会影响隐私性。在数据相关部分,进一步分成p/2和p/2进行分析。得到的隐私界比隐私毯子更紧凑。

Incentive

Title Team/Main Author Venue and Year Key Description
Pain-FL: Personalized Privacy-Preserving Incentive for Federated Learning Chinese University of Hong Kong IEEE Journal on Selected Areas in Communications /2021 基于差分隐私联邦学习的激励,tradeoff点在于客户端希望多加噪声保护本地数据,中心方希望客户端少加噪声获得高准确率模型,于是一开始就签订协议,协议对应的是噪声保护程度和奖励,即越少加噪,就获得奖励越多。但是噪声保护程度各个客户端一开始就定好了,假定各个客户端是理性的。中心方根据签订好的锲约,进行客户端采样联邦,选择隐私保护力度小的客户端参与联邦。

Vertical-FL with DP

这个是未来可以研究的一个方向,针对纵向联邦的分层网络的场景进行差分隐私保护

视频讲解

Attack

联邦学习中的攻击与防御

视觉算法的模型攻防

Title Team/Main Author Venue and Year Key Description
Deep leakage from gradient Renmin University of China Neurips /2019 先用虚拟的数据和标签得到虚拟模型梯度,计算虚拟模型梯度和真正的梯度之间的L2损失,损失求导使得虚拟梯度拟合真实梯度,从而使得虚拟数据和虚拟标签同步变化,最后复现出原始数据。该方案仅适用于单层网络模型。
Towards Security Threats of Deep Learning Systems: A Survey Yingzhe He IEEE Transactions on Software Engineering /2021 深度学习下的攻击综述,包括模型窃取攻击,模型反演攻击,投毒攻击,对抗性样本攻击
Local and Central Differential Privacy for Robustness and Privacy in Federated Learning Openmind NDSS /2021 联邦场景下LDP(其实是联邦下的样本级差分隐私)和CDP(联邦下的客户端级差分隐私)对推理攻击(隐私性)和后门攻击(鲁棒性)的防御研究,内有大量实验设置和对比结果。DP之所以能防御后门攻击可能在于加DP的同时同步给置入后门的攻击方加了噪声,削弱了攻击方能力。
Comprehensive Privacy Analysis of Deep Learning University of Massachusetts Amherst NDSS /2018 在联邦场景下假设联邦中心方或其他参与方是敌手的情况下的成员推理攻击,并分了无监督,半监督,白盒,黑盒,积极攻击,消极攻击等多种场景。主要在于它的成员推理攻击比较普适,攻击的模型**比较清晰。
Evaluating Differentially Private Machine Learning in Practice openmind CCS /2019 对不同的DP(高级组合,ZCDP,RDP等)进行评估,用黑盒和白盒的成员推理攻击来评估经过这些DP训练后的模型的防御效果。
FLAME: Taming Backdoors in Federated Learning Technical University of Darmstadt USENIX /2022 在差分隐私结合联邦场景中提出了FLAME, 使用模型聚类(基础假设为后门训练的权重和良性权重存在较大的方向偏差)和权重裁剪(采用中位数进行裁剪,基础假设是后门敌手不会超过总客户端的一半)方法。这确保了 FLAME 可以在有效消除对抗性后门的同时保持聚合模型的良性性能。实验表明加很少的噪声就可以非常有效的抵御后门攻击,应该是裁剪对后门的作用大。

Application Scenarios

Text Protection

结合差分隐私的文本保护

Recommended System

Title Team/Main Author Venue and Year Key Description
Differentially Private User-based Collaborative Filtering Recommendation Based on K-means Clustering Zhili Chen Expert Systems With Applications /2018 协同过滤添加差分隐私,先进行聚类,聚类后对待预测的用户所在的簇(簇中用户数m)选n个相似用户,根据皮尔逊距离用排列组合组合出$C_m^n$个组合,然后用差分隐私的指数机制来选择最近的那个组合。本质时是用差分隐私的指数机制来选择和被预测用户最相关的那个组合用户
Differentially private matrix factorization Nanjing University AAAI /2015 基于矩阵分解的推荐系统,本质上是将一个权重参数分成一个用户矩阵和一个物品矩阵,两个矩阵都可以看成待训练的权重。然后根据原本的一个大矩阵中已经打分的数值进行权重训练,最后得到这两个权重矩阵。文章给出了本地差分隐私的保护,即把每个用户自己的权重进行加噪再上传到中心方联邦平均。

DP and image

Title Team/Main Author Venue and Year Key Description
DPGEN: Differentially Private Generative Energy-Guided Network for Natural Image Synthesis Jia-Wei Chen CVPR /2022 该文章基本基于《Generative Modeling by Estimating Gradients of the Data Distribution》的基础上添加差分隐私,就是在学习已有图片信息然后生成新的图片信息的过程中加差分隐私。存在两点问题,一是在做指数机制时其从当前数据中再取K个进行随机输出,这边K的取值没有进行隐私保护,二是其方法没有生成样本对于的标签信息,作者认为用生成的满足差分隐私的图像数据去查询标签不会泄露隐私,但其实会有隐私问题【vedio】

DP and cytro

Title Team/Main Author Venue and Year Key Description
Efficient Differentially Private Secure Aggregation for Federated Learning via Hardness of Learning with Errors University of Vermont CCS/2021 该文章在原来的用同态加密进行联邦聚合的基础上,刻画了噪声的DP衡量,因为之前用的LWE天然存在噪声,所以该文章把这个噪声用DP量化出来。同时,也可以理解成其用同态加密的方法将原来的LDP加噪变成CDP的加噪方式,类似shuffle的理念。【vedio】
Private, Efficient, and Accurate: Protecting Models Trained by Multi-party Learning with Differential Privacy Fudan University SP/2022 核心在于利用了多方安全的秘密分享构建出一个虚拟的联邦中心方,使的不同客户端的样本数据可以进行秘密分享后“集中”式训练,然后在再训练的梯度上加DP,以此满足模型的差分隐私。相较于之前的模型,该模型不用LDP,也不用shuffle,将所以客户端数据整合成集中式变成CDP的形式(这样可以用更小的eps,即不造成更大的精度损失),并且没有可信第三方。

Code