palloc/PaperStack

Privacy-Preserving Multiparty Learning For Logistic Regression

Opened this issue · 0 comments

公開日

2018-10-04

1. 概要

医療分野など様々なところで機械学習が活躍し始めているが、個人情報が含まれる学習データの保護は依然大きな課題である。本当は複数の出どころのデータをすべて合わせて学習したモデルが通常の一つのデータセットを用いたモデルよりも優れているが、プライバシーの問題で実行が難しい。
本論文では、複数の関係者がデータソースのプライバシーを保証しながら、分散したデータセットに対して学習モデルを連携して正確に学習できるようにするフレームワークを提案している。@ロジスティック回帰

2. 新規性・差分

例えば名前情報を消したデータセットでも、補助情報を攻撃者が持ち合わせていた場合プライバシー情報を復元でき、保護しきれない。また、準同型暗号等を用いた方法が既存研究であるが、計算量が莫大で大きなアプリケーションでは有効でない。
そこで、近年攻撃者がいかなる補助情報を持っていてもプライバシーを保証できる差分情報を用いたテクニックが注目されている。Laplace mechanismなどを用いてノイズを生成し、そのノイズを用いてノイズモデルを構築する。これらのメカニズムは、ノイズを追加することによって目的関数を摂動させ、摂動されたノイズのあるモデルの予測を出力することができる。だが、これらは単一データセットに対する手法である。
提案手法は、上記の手法を拡張し、プライバシーの保証がある環境下で複数機関でのトレーニングを実現した。

3. 手法

  1. 各機関がローカルでデータにノイズを与えながらモデルを学習する。
  2. 出来上がったモデルを**サーバにアップロード。
  3. アップロードされたモデルのパラメータを平均化し、各データ所有者に返す。
  4. 返されたパラメータをローカルで再学習させる。(データの数が違うため、重み付きで更新する)
  5. ↑をパラメータが終息するまで繰り返す。

default

ローカルでノイズモデルを構築する際に用いる手法として、Output Function Perturbation Approach(OFPA)とOutput Function Approximation Approach(OFAA)が提案されている。

OFPA

default

OFAA

default

4. 結果

  1. Classification Accuracy vs. Privacy Budget
  2. Classification Accuracy vs. Dataset Cardinality
  3. Classification Accuracy vs. Dataset Dimensionality
  4. Training Time vs. Privacy Budget
    でそれぞれ考察を述べている。(細かい表は論文を参照)
    総じてプライバシーを担保しつつ高い精度を達成している。

5. 議論

6. コメント

プライバシー保護系は今まで全然かかわってこなかったので、自分にとっては新鮮だった。

論文情報・リンク

https://arxiv.org/pdf/1810.02400.pdf