統計学が最強の学問である
- 作者: 西内啓
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/24
- メディア: 単行本(ソフトカバー)
- 購入: 11人 クリック: 209回
- この商品を含むブログ (129件) を見る
(2013-07-16読了)
巷をにぎわせた(?)本をようやく読了.行き帰りの電車でさっと読むことができた.
ビッグデータを使おう! という話かな? と思って読んだら,ビッグデータをビッグのまま扱う必要あるのだろうか? ランダムサンプリングが可能であれば頑張って高いコストを払ってビッグなまま使う必要ないじゃない,というようなスタンス.
細かいところで物足りない部分があったりしたが,読み物として楽しく読むことができた.
フィッシャーのはじめてのランダム化比較実験*1と言われている,紅茶を先に入れるかミルクを先に入れるかを当てる夫人の話を知らなかった.
ロジスティック回帰は線形関係しか表現できない (p.238-) と言っているが説明変数の方を基底関数で拡張すれば非線形なモデルも表現できるので不正確だと感じた.統計の人にはロジスティック回帰は線形モデルという印象が強いのだろうか.
著者はずっと統計に触れてきた人らしいので,多重共線性の話を入れて欲しかったなぁと思ったり.機械学習な人は,多重共線性とか面倒くさいから利用可能な特徴ぜーんぶ入れて正則化項入れてえいやっとやっちゃえばいいじゃない,というカラーがあるような気がする.それに対してちゃんとした統計な人はこう考えるだよ,というような話があるとよかった.
メモ
*1:この表現を初めて聞いた