TagAssist: Automatic Tag Suggestion for Blog Posts (2007)

Sanjay Sood, Sara Owsley, Kristian Hammond and Larry Birnbaum
ICWSM2007
Northwestern University

タグつきブログコーパスから学習し,新しくポストされる記事に付与すべきタグを推薦するシステムの提案
stemmingと複数語から成るタグをalphabetical orderにすることでnormalizationを行う.appleやapplesのようにnormalizationによって多義語がまとめられてしまうことを避けるために,共起するタグの類似度によって分別する.
Luceneを利用.simple vector space comparison modelでタグを推薦.
Evaluationは,基本的に人手によって評価.
そもそもoriginal tags自体が妥当ではない,という結果が出ている.それでも精度としては42%程度.
Text classificationのように完全一致を正解とする実験ではPrecision=13.11%, Recall=22.83%とかなり低い.データを言い訳にしている.
推薦プロセスの詳細については,まだ読んでいません