多項分布の最尤推定とMAP推定 - シリコンの谷のゾンビ

@nokunoさんが多項分布の最尤推定の導出をブログに書いてらしたのを読んで，そういえば以前，多項分布の最尤推定とMAP推定を導出したことを思い出した．せっかくなのでブログに書いておく．

多項分布の最尤推定とMAP推定 (PDF)

実はこれ，ブッチャー本を読んでいてLaplaceスムージングなるものが出てきた後に，これを一般化するとDirichletスムージングという形になるよー，という流れで出てきた．Dirichletスムージングはその名のとおり，Dirichlet分布を事前分布とする多項分布のMAP推定なんだけれど，意外とそのことを丁寧に説明している書籍は少ない (導出過程まで書いてある文献を知らない)．というわけで，ちょっとした頭の体操として導出をやってみた，というのが3ヶ月前．今読み返すと，まったく覚えてないから人間で不思議．

多項分布は，出現確率がp_kであるようなK種類の事象がそれぞれx_k回起こる確率の分布で，K個の出現確率p_kをパラメータとする．

直観的な例としては，3種類の事象があって，それぞれの出現回数をA, B, C回とすると，それぞれの出現確率は，p_A = A/(A+B+C), p_B = B/(A+B+C), p_C = C/(A+B+C) だと直観的に感じるだろう．実はこれが最尤推定であるということは@nokunoさんのご説明のとおり．

観測値が多い場合にはそれでいいのだけれど，事象の数が増えた場合に一回も観測されないような事象が多数出現してしまう．そのままだと出現確率が0になってしまう．そういったゼロ頻度問題を防ぐためにスムージングとかいう方法を使うよ，ということはナイーブベイズや言語モデルの話と一緒に出てくる

このとき，最初に必ず出てくるといっても過言でない方法がラプラススムージングと呼ばれる方法．これは，