ナイーブベイズによるテキスト分類アプリで日本語を扱えるようにしました

たくさんの方にブックマークして頂いて,感謝感激でした.感謝の意味をこめて少しだけ改良しました.といっても自分の力ではないですが...


昨日の日記でも紹介したTinySegmenterによって日本語の文も扱えるようにしました

TinySegmenterの作者の工藤拓氏に感謝申し上げます.m(_ _)m

主な変更点

  • TinySegmenterによって分かち書きをするようにしたので,日本語を扱えるようにしました.
  • 見た目をほんのちょっと変えました
  • デモ用にサンプルテキストを用意しました


せっかくなので,いじりやすいようにサンプルテキストも用意してみました.

チュートリアル憲法とこころを分類してみよう

  1. 憲法をPositive,こころをNegativeとします(逆でもよいです).
  2. 憲法前文をクリック.憲法前文がテキストフィールドに表示されるので,学習ボタンを押します.
  3. こころ(最初)ボタンを押します.こころの最初の部分が表示されるので,今度は憲法とは別のクラスで学習します.
  4. 憲法100条を分類してみます
  5. こころを分類してみます
  6. きちんと分類できましたか?各単語の条件付き確率と実際の数を見比べてみるとスムージングがどのように効いているか(悪さをしているか)イメージをつけやすいと思います.

TODOとか考えていること

ほかにもなにかあればコメントください

  • なんかtoLowerCase()がうまく働かない
  • 桁数が小さくなると表示に困るので,log取って足し算結果を表示しようかな?