シリコンの谷のゾンビ

PRML復習レーン#5に参加・発表しました

PRML

PRML復習レーン#5に参加しました．予期せぬ?寝坊で重役出勤．すみません．．．今回担当した範囲は，実は昨年8月にPRML読書会本レーンで初めて担当したことのある範囲．そのときは初めての担当ということもあり，自分の理解が追い付いていないこともあり，相当グダグダになって軽くトラウマになった記憶があります．今回，もう一度担当することによって，相当理解を深めることができました．

発表資料はこちら．

PRML4.3.3

View more presentations from sleepy_yoshi.

メモ

4.1 フィッシャーの線形判別について by taosさん

最小二乗誤差を分類に適用してもよいけれど，正しすぎるサンプルにロスを与えてしまうので分類には不適切
パーセプトロンは収束性判定が難しい

フィッシャーの線形判別は2クラスがガウス分布に従い，分散共分散が等しいことを仮定している
ラベル情報を使って特徴空間の変換を行うという観点では，supervised metric learningとかkernel learningというキーワードでその後の発展
- 生駒日記 http://d.hatena.ne.jp/mamoruk/20090126/p1
- ICML 2010 Tutorial on Metric Learning http://www.eecs.berkeley.edu/~kulis/icml2010_tutorial.htm

特徴空間に変換をかけるということについて，アプローチは大きく2つに分けられると考えた
- (1) 特徴空間に対して決まった(非)線形変換をかけて，パラメータを学習する方法 (e.g., 基底関数, SVM with kernel)
- (2) 固定のモデル (e.g., k-NN) に対して，分類誤差が最小になるよう特徴空間を変換する方法

4.2 by lacket72さん

最初の疑問．P(C, X)を求めるのはわかった．
- P(C, X) ∝ P(X|C) P(C)
- P(C, X) ∝ P(C|X) P(X) <= これでも求められるけれどなんでやらないの?

- P(X)を求めるのは不可能 => P(C, X)を求めるのはP(X|C)P(C)しかない
- また，通常はサンプルが与えられてクラスを出力できればよいので，P(C|X)が計算できるならそれでよい?

(4.83)から(4.84)にしてスケーリングパラメータを出すのはなぜ?
- 一般性があがったわけではない?
- そうすると(4.124)のようにきれいに書けるから??

スケール不変がどういう意味を持っているのか? という質問
- e.g., 物理だと相転移とか臨界点というところで出てくる
- 機械学習だとどういううれしさがあるのか?
  - モデルがスケールに対して不変だとうれしいよね

4.3- by nokunoさん

ロジスティック回帰
識別モデルではパラメータwが少ないという点について質問が上がる
生成モデルと識別モデルでwのとらえ方が違うのではないか
- P(C|X)の尤度最大化を目指す識別モデル．P(X|C)P(C)の尤度最大化を目指す生成モデル

線形分離可能な場合には，\mathbf{w}が無限大になってしまうことについて
- \mathbf{w} = (+1, -1) である訓練データに対して線形分離可能の場合
- \mathbf{w} = (+100, -100)でも線形分離可能
- よって最尤推定をすると，\mathbf{w} = (+∞, -∞)になってしまう?

4.3.3- 自分の担当

メモ

ニュートン法は，非凸では困ることも
- たとえば，ガウス分布を反対にしたもののような関数系をしていると端っこに引き寄せられてしまう
局所最適解に陥らないために，GAなどのメタヒューリスティクスを利用して解決する

宿題

算出できなかった演習2つ分の検算...
プロビット回帰の意味
- 閾値 $\theta$ と活性化関数aの関連
1階微分 => 2階微分の導出