ナイーブベイズによるテキスト分類体験アプリ

もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの.Naive Bayesを世の中に広めるために,きちんと公開することにしました.


(2008-09-11追記)好評だったので日本語を扱えるようにしました.詳しくはこちらの日記をご覧ください.


Naive Bayesナニソレ?という方はとりあえずググりましょう.理屈はわかったけれど,うまくイメージがつかないなぁ..という状態になったら本プログラムを触ってみてください.すっきりします.たぶん.

使い方の説明

  1. 単語区切りが面倒なので日本語は使えません.あしからず.
  2. 本文を入れるっぽいところにテキストを入力します.
  3. クラスを選択して学習ボタンを押すと,頻度がカウントされ,各クラスの条件付確率が表示されます.
  4. どんどん学習して条件つき確率の変化を観察しましょう.
  5. αは単語の出現確率のスムージングパラメータです.
    • いろいろ変えてスムージングがどういう影響を与えるのか観察しましょう
  6. 分類したいテキストを入力したら分類ボタンを押してください
  7. 事後確率(posterior)が大きい方に分類されます.
  8. 下のほうに計算に用いられた単語とその確率に色づけをしてくれます.
  9. Naive Bayesは怖くない,ということがわかったら布教しましょう.

TODO

  • 単語尤度という表現はおそらく誤り
  • 単語区切りは驚きのスペース,カンマ,ピリオドだけ!(済)
  • case folding?ナニソレ?
  • 形態素解析すれば日本語使えるヨ.Yahoo!APIとか.(済)
  • etc...

おねがい

  • お気づきの点がありましたら,コメント欄でもメールでもご連絡をいただけると幸いです.
  • もちろん無断で改良してご自身の名前で公開してもらっても一向にかまいません.
  • とにかくNaive Bayesを布教してください.