PRML復習レーン#01: 第1章序論 - シリコンの谷のゾンビ

PRML読書会復習レーン (通称ゆとり向けレーン)に参加して1.6情報理論を発表してきました．
大分遅くなってしまいましたが，発表資料を公開します．

PRML 1.6 情報理論

View more presentations from sleepy_yoshi.

PRML復習レーンに対する雑想

曳船で開催されていた頃のことを思い出すと，PRML読書会にこんなにたくさんの方々が参加するようになるとは思いもよらなかった．いや，別に幹事でもなんでもないんですが，いち参加者としてやっぱり嬉しいですよね．

毎度ながら参加者の皆様の鋭いツッコミのおかげで議論が盛り上がり，また僕自身も大変勉強になりました．改めて御礼申し上げます．

登板数が多いくせに失点 (被本塁打) の多いピッチャーという肩書きが大分定着してきた気がします (2008年シーズンまでの広島カープの大竹のようなイメージ)．

ぴしっと抑えることよりも (というか抑えられない...)，バッターに気持ちよく打ってもらって観客に楽しんでもらい，かつ，観客が帰ってしまわない程度に抑える，ということをモットーにこれからも機会があれば登板していきたいと思います．

担当しないと全く予習しないものですみません．．．

本節に対する雑想

情報理論というのはいわゆるシャノン理論というやつ．シャノンは情報量を

稀な出来事ほど驚きの量 (=情報量) が多い (確率に対する単調減少性)
二つの独立した出来事を知ったら，得られた情報量はそれぞれの出来事の情報量を足したもの (加法性)

というものと定義した．これらの要件を満たすように，確率pで起きる出来事に対する関数h(p)を設定したいのだけれど，どうやらそれは対数関数だね，ということで確率の負の対数が情報量を表す関数として用いられている．

どうやらシャノン以外にも情報を定義したものがあるようで[1]，新たに自分で情報の要件を定義し，数学的に妥当な「オレ様情報理論」を構築してもよいわけだ．

例えば最適化の対象に使われるKLダイバージェンスであったり，モデル選択に用いられるMDLの基盤となる符号理論を支えていると考えると，これは本当にすごい発明なんだなぁと感じる．

情報理論に関する本を何冊か持っているのだけれど，なぜ情報量の定義に対数を利用しているのかということをきちんと証明している本はほとんどなかった．たとえば，[2]の付録に証明が記載されている．[2]における情報に対する考察はとても面白いので，もし本書を持っていたら，その部分だけでも読んでみることをお薦めする．

一言ポイント

情報量は定義．そういうものだと考える．
- シャノンの提唱した情報量の「要件」を満たす関数が対数だったというのが理由
エントロピー
連続値に対するエントロピー (微分エントロピー) は誤魔化している
- (1.102)の右辺第二項を無視している
KLダイバージェンス
KLダイバージェンス最小化と尤度最大化は等価
相互情報量
おまけのPMI, EMIについては後日エントリを書く予定 (予定...)

宿題

突っ込まれて宿題にしてもらったのは以下のポイント．帰宅してから調べてみたけれど他人に説明できるほど理解していないので，もう少し調べてみる予定．

(1) 分布のモーメントを調べる
(2) nエントロピーが負になってしまうけれどいいの? (p.53下)
(3) KLダイバージェンスが大きい <=> 分布が離れるというのはどういうこと?
(4) KLダイバージェンスの最小化 = 尤度の最大化? それってつまりML推定ということ?

(3) に対する回答

KLダイバージェンス以外にも分布間の距離を表す指標が用意されている．[3]から引用
すると，例えば

カイ自乗情報量
ヘリンジャー距離
一般化情報量
ダイバージェンス
L1ノルム
L2ノルム

など色々あるみたい．しかし頂いた質問の意図である「じゃあKLダイバージェンスってどういう距離を表現してるの?」ということを直接記述した箇所を見つけることができなかった．

これについてもう少し考える予定．

自分メモ

定義域と値域の違い
- 平たくいえば，f:x -> yの場合，xの定義域，yの値域

References

[1] J. Aczel and Z. Daroczy. On measures of information and their characterizations. New York: Academic Press (1975).
[2] P. Baldi, P. Frasconi and P. Smyth(水田正弘, 南弘征, 小宮由里子共訳). 確率モデルによるWebデータ解析法. 森北出版 (2007).
- 付録A5.2に書かれている，情報を，シャノンによる情報，サプライズ，関連性の3つの側面がある，という解説が非常に興味深い
[3] 小西貞則, 北川源四郎. 情報量基準. 朝倉書店 (2004).