情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜
しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科書について書くことにする.
あの頃は検索を勉強し始めて8ヶ月のペーペーだったけれど,そのまま加算すると,どうやら2年8ヶ月になるらしい.「まるで成長していない…」とか某安西先生につぶやかれそうな気がするけれど,自分のことは棚に上げて,この2年間に新たに出版された教科書を紹介したいと思う.
さて,例によって若輩の主観と独断と偏見にまみれた記事になっています.誤りの指摘,違ったご意見があれば,コメント頂けると幸いです.
情報検索の教科書
この2年で出版された教科書的存在の文献は3冊.それぞれ紹介する.以下の3冊の共通点としては,IIRよりも検索エンジンの実装寄りの話題を含んでいること,この数年盛んに研究されているlearning to rankの話題をより多く含んでいることなどが挙げられる.
Information Retrieval: Implementing and Evaluating Search Engines (2010)
Information Retrieval: Implementing and Evaluating Search Engines (MIT Press)
- 作者: Stefan Buettcher,Charles L. A. Clarke,Gordon V. Cormack
- 出版社/メーカー: The MIT Press
- 発売日: 2010/07/23
- メディア: ハードカバー
- 購入: 2人 クリック: 78回
- この商品を含むブログ (8件) を見る
Search Engines: International Version: Information Retrieval in Practice (2009)
Information Retrieval in Practice
- 作者: W. Bruce Croft
- 出版社/メーカー: Pearson Education
- 発売日: 2009/05/01
- メディア: ペーパーバック
- 購入: 2人 クリック: 56回
- この商品を含むブログ (4件) を見る
Modern Information Retrieval: The Concepts and Technology behind Search (2nd edition) (2011)
Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition)
- 作者: Ricardo Baeza-Yates,Berthier Ribeiro-Neto
- 出版社/メーカー: Addison-Wesley Professional
- 発売日: 2011/01/31
- メディア: ペーパーバック
- 購入: 1人 クリック: 60回
- この商品を含むブログ (6件) を見る
- サポートページ
- 各章のスライドが用意されている
- 長い沈黙をやぶり,ついに出たモダイン第2版!
- 900ページ超,参考文献1800件はフリーザ様もびっくりの戦闘力.
- 章ごとにそれぞれの専門家が執筆.
- 圧倒的な存在感! 網羅率!
- 上記2冊になくて,本書に含まれる話題はここらへん.
- 2. User interfaces for search,
- 14. Multimedia information retrieval
- 15. Enterprise search
- 16. Library systems
- 17. Digital librariesという章がある
- 付録AにOpen source search engineの比較がある.けれど情報は2009年時点のものだった.
- 第1版でsuffix array系の話があったので,自己インデクス (self-indexing) の話題も扱うのかな? と思っていたら,意外にもそこらへんは攻めてこなかった.
- あまりに分厚いので通読するのは大変..
- 僕はモダイン2と呼ぶことにしました.
一番おすすめの教科書は??
上記三冊が出版されるまでならIIRと断言していたと思う.しかし,IIRが出版されてから早3年.IIR勉強会に参加し,通読したとても愛着のある本なので,IIRがいつまでも教科書NO.1でいてほしいという気持ちはあるのだけれど,時の流れと共により良い教科書が出るのも世の常である.
さて,というわけで2011年時点 (まだ1月だけれど) における私的IR教科書NO.1を決めたいと思う.
目的,専門分野によるけれど,情報検索の教科書として通読するのであれば以下の順番でおすすめしたい.
(おすすめ) ブッチャー本 > IIR > クロフト本 >> (越えられない壁) >> 和書 (おすすめしない)
個人的にはブッチャー本が一番お薦めである.実装寄りの話がきちんと書かれている.IR研究の動向を踏まえた最新の情報が載っている,という点においてIIRよりも優れている.
IIRはとてもわかりやすい英語で書かれている.けれど,著者がIRやfull-text searchあたりの専門家ではないため,どうしても実装寄りの話が抜けていたり,(2007年出版のため) 最新の研究成果に言及されていなかったりする.裏を返せば,情報検索自体を専門としない人にとっては,やっぱりIIRが一番良い教科書になる可能性もある.
クロフト本はこれらの中では一番さらっと読めると思うが,これだけ読むと情報が不足する (偏った知識を得てしまう) 可能性がある.特に気になったのは参考文献の少なさ.自著の論文を多く引用しているため,どうしてもCroft先生寄りの内容になっている.その点,IIRは非常に幅広く参考文献を引用しているので,偏りのない知識を得られると思っている.
モダイン2は重すぎる.こんな分厚い本を通読する根性があるのであれば,こんなブログ記事を読む必要はないので,ここでは教科書としておすすめしないことにした.リファレンスとして持っておくとよいと思う.
本当の最強コースは間違いなく,「引用文献も逐一チェックしながらモダイン2を通読すること」であるが,さすがにそれはインプットに偏りすぎている学習方法の気がするので,僕はきっとやらない (というかできない)
しばらく情報検索の教科書らしい教科書が日本語で出ていない.情報検索アルゴリズムから9年経過してしまっているため,日本語で情報検索の教科書的位置の本が長らく不在である.(リンク解析に限定すれば翻訳本の Google PageRankの数理 ―最強検索エンジンのランキング手法を求めて― がある.) 風の噂でIIRの翻訳が出るとか出ないとか? IIR翻訳に期待したい.
ただし,これらは僕自信の主観によるもので,人によって好みもあると思うので,実際に手にとって確認して頂きたい.
ランキング学習
僕自身が一番興味あるところなので,こちらもご紹介.
TF-IDFやPageRankのような複数スコアを組み合わせて高精度なランキングモデルを作成する技術をランキング学習 (learning to rank) と呼び,ここ数年盛んに研究されている.
上記教科書にもlearning to rankの項目があるけれど,どれも短い...現在出版されているランキング学習の本は上述のFoundations and Trends(R) in Information Retrievalシリーズのこれしかない.
Learning to Rank for Information Retrieval (2009)
上記Foundations and Trends(R) in Information Retrievalの一冊
Learning to Rank for Information Retrieval (Foundations and Trends(r) in Information Retrieval)
- 作者: Tie-yan Liu
- 出版社/メーカー: Now Pub
- 発売日: 2009/06/30
- メディア: ペーパーバック
- クリック: 17回
- この商品を含むブログ (2件) を見る
- 本分野の代表的な研究者Tie-Yan Liu氏によるチュートリアル資料のような本.
- 今までの研究の俯瞰と,それぞれの文献へのリファレンスがあるので手がかりに良い
- ただし,各手法について詳しく解説されているわけではないのでこれ一冊だけでは不十分だと思う.
- あとは2011年時点における最新の研究についてはあまり載っていないので,最新の研究動向について把握しづらい
Learning to Rank for Information Retrieval (2011?)
今年の3月出版予定だそう! 同じくMSRAのTie-Yan Liu氏の著書.かなり胸熱!!
Learning to Rank for Information Retrieval
- 作者: Tie-Yan Liu
- 出版社/メーカー: Springer
- 発売日: 2011/05/06
- メディア: ハードカバー
- クリック: 20回
- この商品を含むブログ (3件) を見る
- learning to rankで300ページという期待作.
- 円高のうちに予約注文しちゃいましょう.
その他のIR本
実はそれ以外にも色々と出版されているのでご紹介.
Foundations and Trends(R) in Information Retrievalシリーズ
知る人ぞ知る.超充実チュートリアル本シリーズ.各分野の専門家がそれぞれのトピックについて書いたチュートリアル資料が本になりました.対象分野の知識を一通り学ぶことができる速習シリーズ.
出版済みのタイトルはこちら.タイトル見るだけで胸が熱くなる.上記教科書に掲載されていないトピックもあるので,足りない部分は自分で選択して購入しよう.唯一の難点は値段の高さ.100ページ前後の本一冊6000円程度する....
- Test Collection Based Evaluation of Information Retrieval Systems
- Web Crawling
- Mining Query Logs: Turning Search Usage Data into Knowledge
- The Probabilistic Relevance Model: BM25 and Beyond
- Learning to Rank for Information Retrieval
- Methods for Evaluating Interactive Information Retrieval Systems with Users
- Concept-Based Video Retrieval
- Statistical Language Models for Information Retrieval: A Critical Review
- Opinion Mining and Sentiment Analysis
- Email Spam Filtering: A Systematic Review
- Authorship Attribution
- Open-Domain Question-Answering
- Music Retrieval: A Tutorial and Review
以下は出版予定
- Adversarial Web Search
- Federated Information Retrieval
- Automatic Summarization
- Retrieval and Browsing of Spoken Content
Search User Interfaces (2009)
- 作者: Marti A. Hearst
- 出版社/メーカー: Cambridge University Press
- 発売日: 2009/09/21
- メディア: ハードカバー
- クリック: 7回
- この商品を含むブログ (1件) を見る
- 読んだことないので書評できません.
- タイトルから察するに検索エンジンのインタフェース側の話題 (そのまんまやん)
- 著者のHearst氏はIR分野で著名な研究者です.著者買いしても大丈夫のはず
The Turn (2005)
- 作者: Peter Ingwersen,Kalervo Jaervelin
- 出版社/メーカー: Springer
- 発売日: 2005/09/21
- メディア: ハードカバー
- クリック: 1回
- この商品を含むブログ (1件) を見る
- タイトルからは一瞬IR本だと思わないので,すっかり抜けていた.
- 著者のひとりはDCG (NDCG) の評価指標などでよく引用されるあのJarvelin氏
- 「情報を探索する」という観点を深堀りした本
- 本棚の肥やしになっているので詳細は書けません..