事例で学ぶテキストマイニング

事例で学ぶテキストマイニング

事例で学ぶテキストマイニング

(2008-02-18読了)

タイトルの通り事例を紹介する.
実際のテキストマイニングを用いている現場を見ていないが,

ただ,使用されている技術はきわめてprimitiveなものなので注意.固有値についての説明もなく第一固有ベクトルと第二固有ベクトルによる分析をやっている.(付録で説明しているが)


使われている図表もエクセルから貼り付けましたーって感じだから批判的に読んでいたのだけれど,「事例で学ぶ」というタイトルを思い出してはっとした.ここまで良い意味で愚直に分析の事例を載せる本も珍しいな,と.


また,紹介されているテキストマイニングツールがものによっては数百万するもので,それが

「★★★★☆ 使いやすいです!」

とか紹介されていて,誰がその情報を参考に購入を検討するンだ!と吹き出してしまった.テキストマイニングはまだ基本アルゴリズムが確立されてないから,エクセルVBAでそれっぽいツールをつくれるのに,それに数百万も払うんですか...と.
そのお金でひとりポスドクを雇ったらそれ以上のものを作ってくれると思うんですが.脱線.

何が言いたかったかというと,エンジン部分は非常に原始的なので,それをどう活用するか,という視点が大事なんですよ!という点をもっとアピールしてよかったな,と思った.
事例紹介は良いのだけれど,ただただ羅列してあるだけだから,それこそ学部2, 3年のレポートを見ている気分になった.


テキストマイニングの専門家には全く役に立たないと思うが,例えばテキストマイニングに興味がある門外漢の学生,さくっとどんなことをやっているのか知りたい人には役に立つかも.著者にひとり専門家が入っていたので専門的な内容扱っているのかな,と思ったけれど違います.


付録が一番勉強になった.意味ソートは知らなかった.
ChaSen, CaboChaをウィンドウズ版で紹介した次のページにdiffが出てきて吹き出した.その発想はなかったわwwと思ったらウィンドウズでもdiffってあるのね.失敬.


監修者の上田太一郎氏は何かの分析系の本を読んだ記憶がある.奥づけを見て驚いた.2007年7月に亡くなられたらしい.上田データマイニング塾のウェブページはそのままだし,検索しても本作の著者紹介がヒットするだけ.ご冥福をお祈りします.

キーワード

  • 双対尺度法(数量化理論III類,対応分析)
  • 意味ソート
  • mdiff