yoheikikuta/paper-reading

[1503.02406] Deep Learning and the Information Bottleneck Principle [paper-reading]

yoheikikuta opened this issue · 11 comments

論文リンク

https://arxiv.org/abs/1503.02406

公開日(yyyy/mm/dd)

2015/03/09

概要

DNN の汎化性能に関して、情報論的なアプローチから論じた論文。
feedforward で sigmoid の activation function という素直な DNN に対して、入出力の相互情報量に注目して議論を展開していく。具体的には、出力は入力より遥かに次元が低くてそれで classification などができるわけなので、classification に必要な情報を保ちつつ入力の情報を落としてくように学習していくのが DNN だと考えている。
理想的には、層を重ねた時に推測したい Y の確率分布に対する最小十分統計量を求めていけばいい。しかしこれは一般に存在するものではないので、Information bottleneck の optimal な解(これは self-consistent な形で書ける)を求めることでお望みのものに近いものが得られる。
最終的には有限サンプルの効果も考慮して DNN が実現できる generalization gap (DNN で得られる $ I(X;Y|\hat{X}) $ と有限サンプルで実現可能なものとの差) と complexity gap (DNN で得られる $ I(X;\hat{X}) $ と有限サンプルで実現可能なものとの差) を示している。下の図で言えば前者が ΔG で後者が ΔC。

この論文はコンセプトを論じたようなもので実験などはない。
以降で色々な論戦が続いていたりもするが、ゆくゆくはその辺も整理していきたい。
まずはこの論文の基本線を追っていく。


関連しそうな情報をここに挙げておく。

  • The information bottleneck method
    https://arxiv.org/abs/physics/0004057
    これは一回ちゃんと読んでみる必要がありそう。
  • Rate distortion theory
    これはいろんなところで学べると思うが、自分の手持ちだと Mackay 本の 10 章かな。流し読みしただけなのでこれも一回ちゃんと読もう。
  • Opening the Black Box of Deep Neural Networks via Information
    https://arxiv.org/abs/1703.00810
    界隈の論文でかなり引用数が多い論文で今回の論文の直接的な続きもの。これを理解するために今回の論文を読んでいるとも言える。次に読みたいやつだね。
  • On the Information Bottleneck Theory of Deep Learning
    https://openreview.net/forum?id=ry_WPG-A-
    これはその後の進展だと思われるので、 discussion の内容含めて眺めてみたいね。

まずはモチベーションから。考えてる範囲は結構限定的なのでそこに注意して読む必要はありそう。

教師あり学習で何かしたらの input に対して予測する場合を考える。
例えば画像分類であれば、input の平均的な情報量はとても高いが、予測するのはラベルなのでその平均的な情報量は高くない。これはすなわちラベルを予測するという問題においては本質的に重要でない情報というがたくさん含まれているということが想像できる。

簡単な計算をしてみよう。
100 * 100 で [0, 255] の値を取る白黒画像を入力として、予測するラベルを [0,1] とする。もし完全にランダムな画像とラベルが生成されるとするならば(まあ現実はもちろんそんなことはないのだが、簡単のため)、入力のエントロピーは - 10000 * (1/256) * log2 (1/256) = 312.5 で出力のエントロピーは 1/2 となる。
これは当然かなり大きいし、直感的にもラベルを予測するのであれば画像のなかのかなり限定的な情報を使うだけで実現できるはずだと考えられる。

というわけで、この論文では input から output を予測するための必要な情報という観点に注目している。
特に、情報論的な観点から、モデルの圧縮と予測性能に関して議論をしていく。

この時点で結構注意せねばならない点として、「情報論的な観点から、モデルの圧縮と予測性能に関して議論をしていく」が挙げられると思う。

そもそもこれは本当にやりたいことなのか?
もし予測性能を限界まで上げる、ということが目的ならば別に良い感じに情報を圧縮(これはモデル的には中間層でいわゆる高次の"概念"を獲得してより構造化された情報が抽出できるということに相当する)される必要もない気がする。予測した答えが合ってさえすればいい。

とはいえ DNN が流行ってきた背景も踏まえてその性能を定性的・定量的に理解していくためには、こういう観点で DNN に迫っていくのも有力なアプローチであることに同意はできる。

ということでその辺りを頭に入れつつ主張を見ていきますかね。

教師あり学習で input から output を予測するために必要な情報を抽出する、ということは(近似的な)最小十分統計量を抜き出すことだ、と言っている。

まあこれは input output が何かしらの確率分布に則っているとするならば、 input から何かしらの情報を抽出して、それが output を特徴付ける統計量になっていて、でもそんなに綺麗に求まるものでもないので近似的、ということでいいだろう。

最小十分統計量とか久しぶりに見たな。
deep learning との絡みという点では https://arxiv.org/abs/1608.08225 の論文とかでも出てきたな。くりこみ群と対応づけるやつ。
でもこの論文は cite されてないな。その前段の論文である https://arxiv.org/abs/1410.3831 は cite されてるけど。
両方 cite するべきと思うけどなぁ。まあいいか。

(最小)十分統計量とは何者だったかを思い出しておく。

まず定義。パラメタ $ θ∈Θ $で特徴付けられる確率分布 $ p_θ $ の集合を考える。$ θ $ 未知の確率分布からサンプルしたデータXから計算される統計量 $ T(X) $ が十分であるとは、Tが与えられたときに $ P(X=x|T=t) $ が $ θ $ に依らないことである。

定義はまあいいとして、どういうことかをもう少し考えてみる。
これはすなわち分布の情報として必要なものがデータから計算できるということだよな。1パラメタのポアソン分布を考えてみれば、例えばサンプルの平均値によってそのパラメタを推定することができるので、この平均という統計量が十分統計量となる。確率分布が(少数の)パラメタで特徴付けられるような性質の良いものの場合は、このようなデータのある特別な組み合わせの量という情報だけで分布の情報を把握することができるわけだ。
計算メモも載せておく。

さらに最小十分統計量になると、確率分布の任意の十分統計量U(これは一般に複数個ある)を可測関数hによってその最小十分統計量Tに map できる($ T = h(U) $)場合を言う。
これが分かるということは、任意の十分統計量から得られる情報は(なんらかの関数をかますことで)再現できるということなので、確率分布のパラメタに関して(十分統計量の意味で)最も良い情報を抽出できているということになるのかな。

ただこれは十分統計量だが最小十分ではない、みたいなので意味ある例がよく分からない。作為的な統計量を考えるという例は見たことがあるけど、そういうのはあまり意義を感じない。

まあここでは細かいことを考えずに最小十分統計量を対象にしていると考えればよかろう。

以上のような話を DNN に対して適用していく。
考えているネットワークは以下のように feedfoward な MLP というものだ。

と思って読んでたのだが、どういう条件で成り立つ話なのかはちょっとよく分からないな。
Markovian という部分は本質的に重要なので layer をスキップして connection を張るようなものは対象外かと思っていたが、そういうものをまとめて一つの中間層と見なせば別にいい気もする。

ちょっとこの辺はあやふやなので後で分かったら追記していこう。


まとめて考えるときは architecture の詳細は気にしなくてもいい気がするが、実際に色々計算するときは layer 毎に計算するので変な skip とかはよろしくない気がする。

根幹となる量が相互情報量 $ I(X;Y) $ だ。

これはX,Yの共通の情報量のようなものなので、まずI(X;Y)は一定度の値を持っていると期待するのはいいだろう。もともとXの方がエントロピーが高かったことを思い出せば、これはXの中にYを予測するのに十分な情報が含まれているということだ。

これに対して中間層を表す確率変数と出力の確率変数との相互情報量 $ I(X;\hat{X}) $ と $ I(\hat{X};Y) $ も考える。
この\hat{X}は中間層の次元を小さくして情報を圧縮するということを考えれば、Xと比べるとエントロピーは小さくなるので前者の相互情報量は小さくなる。ただし、それでもなお予測は可能だと期待するので後者の相互情報量も一定度の値を持っていてほしい。

ということで、情報論的な見地から言えば、モデルの学習、すなわち重みを学習して $ \hat{X} $ を明らかにすること、は $ I(X;\hat{X}) $ を小さくして $ I(\hat{X};Y) $ を大きくするということになっている。
これはまさに上の方で述べた圧縮と予測性能という形になっている。

$ Y \rightarrow X \rightarrow \hat{X} \rightarrow X $ という Markovian process を仮定しているので、この $ \hat{X} $ は「XのYの情報を予測するに足るだけの部分」に対する最小十分統計量になっている。
なんか日本語が難しくなってしまっているが、まあこういうことだよなきっと。Xの情報全部を capture できる必要は特にないが、Yを予測するのに必要な情報は capture できる、というイメージ。

上で述べたことを数式で表すなら以下の形になる。

ここでβは tradeoff parameter である。これを Lagrange multiplier と論文では言っているが、別に 2nd term は constraint ではないので用語の使い方としてはおかしい気がする。
こいつを小さくするように $ \hat{X} $ を定めよ、つまりは最小十分統計量を求めよ、という問題設定なわけだ。

ではどうやって最小十分統計量を求めるかということだが、お察しの通りこれは exact に求められるような性質のものではない。
まあそれはそうだ、データの確率分布のようなどう考えても解析的に綺麗に書けているとは思えないものに対してズバッと最小十分統計量が求められるはずもない。

ここで登場するのが Information Bottleneck (IB) principle である。
IB 自体は2000年とかに提案されていて、まさにこのような問題設定を考えていたもので、この論文はその議論をそっくりそのまま DNN に適用したものである。そしたら新しいことは特にないじゃんということになりそうだが、DNN の性能限界を情報論的な観点から議論した点がこの論文の貢献となる。

IB の論文は別途読んでいるのでそれはまた別にまとめるとして、もう一度整理しておく。

  • 情報論的な観点から、DNN の教師あり学習は I(X;\hat{X}) を小さくして I(\hat{X};Y) を大きくするものと捉えられる(この段階では最適化する対象は一意に定まっていない)
  • IB では上で書いたような汎関数を minimize する問題設定であり、これはまさにいま考えている問題設定の最適化対象と考えることができる、汎関数が p(\hat{x}|x) の関数であることに注意しておく。x, y が学習データから推測できる given の確率分布であり、求めるべきは汎関数を minimize するような p(\hat{x}|x) であると分かる
  • IB の論文ではそのような p(\hat{x}|x) を求めるような iterative な方法も示されている。それが以下の self-consitent な方程式で、それにしたがって求めればよい。求めればよい、と簡単に言ったがこれは毎ステップで分配関数求めなくちゃいけなかったりするしかなり大変だと思う(実際この論文ではこれで学習とかはしてない)。


Information Bottleneck に関しては #28 で読んでいくことにする。

この問題設定と rate-distortion theory との対応を見ておく。
ここではあまり深入りはしないが、rate-distortion theory は非可逆圧縮において圧縮率 R と歪み D の関係を調べるものである。

いまの問題設定と対応づければ、圧縮率 R は $ I(X;\hat{X}) $ であり、歪みは d をあるサンプル間の歪み(一例としてハミング歪みなら $ x=\hat{x} $ で 0 でそうでなければ 1)を表現する関数として $ E[ d(X, \hat{X}) ] = D[ p(Y|X)||p(Y|\hat{X}) ]= I(X;Y|\hat{X}) $ となる。

最適化対象としての L は以下のような単純な(ただし $ X \rightarrow \hat{X} \rightarrow Y $ という Markov 性を使っていることに注意)計算により、$ L = R + βD $ という形で書けることがわかる。これが rate-distorition theory として捉えられるということの意味。

有限サンプルの場合に generalization bound をつけるという話がある。
上の方で

そっくりそのまま DNN に適用したものである。そしたら新しいことは特にないじゃんということになりそうだが、DNN の性能限界を情報論的な観点から議論した点がこの論文の貢献となる。

と書いたが、これも結局は https://www.sciencedirect.com/science/article/pii/S030439751000201X この論文の結果をそのまま持ってきているだけだった。
なので純粋に 「IB の議論を DNN に当てはめればこう言う風になるだろう」ということを述べた論文だということになる。
めちゃくちゃ conceptual な論文やね。

ちなみにその bound とは以下のものになっている。
これは reference の Theorem 1 に対応していると思うが、Y の方はこの項を持ってくるなら分母は n だと思うし、log (n) は無視しているし、なんか適当すぎる気がする。
ここではまあ bound されているというくらいにしておいて、詳しく知りたくなったら reference を真面目に読むとするか。

あとは概要で載せた図へと移る。繰り返しになるがこれは実験した結果の図ではなくて、こうなっているだろうという想像の図になっている。

青線は suboptimal bifurcations と書いてあって、これは異なる topology への相転移を示しているとのこと。
これはこれとして面白そうだが、これが意味するところがちゃんと議論されているわけでもないし、こいつもなんか面白そうなトピックがあれば追っていくことにする。

この論文は conceptual でなかなか面白いけど、実験もないしさすがにこれで何かを判断することは難しいけど、続き物の論文・議論を読んでいこうと思う。


直接の続きの論文は Opening the Black Box of Deep Neural Networks via Information であり、#27 で読んでいくことにする。