IR

SEXI2013読み会に参加して発表してきました

SEXI2013読み会あらためSEXI2013/WSDM2013読み会に参加して発表してきました.会場を提供してくださったyesekkyさんおよび株式会Gunosy様,幹事の@y_benjoさんに改めて感謝申し上げます.SEXI2013 (Workshop on Search and Exploration of X-Rated Informati…

SIGIR2012読み会に参加して23.Learning to Rankを発表してきました

12月16日(日)に開催されたSIGIR2012勉強会に参加して発表してきました.休日にも関わらず会場を提供してくださったデンソーアイティラボラトリ様と会場係の山本様,勉強会幹事のみなさま,参加者のみなさま,ありがとうございました.SIGIR勉強会といえば昨…

確率的情報検索ノート ― Probability Ranking PrincipleからBM25まで ―

IR

GW中にやることリストのひとつである確率的情報検索ノートができたので公開. Notes on Probabilistic Information Retrieval ―Probability Ranking PrincipleからBM25まで― 確率的情報検索とは,Prbability Ranking Principle (説明はノート参照) をスター…

Heapsの法則によるコーパス中の語彙数予測と評価実験

IR

さて先日あることがきっかけでヒープスの法則 (Heaps' law) のことを思い出した.最初はヒープの法則と記憶していたのだけれど,'がHeapsの後ろにあるので,ヒープスの法則とかヒープス則と呼ぶのが正しいのだろう.ここではHeapsの法則と呼ぶことにする.He…

SIGIR2011読み会に参加して3.Learning to Rankを発表してきました

SIGIR2011読み会に行ってきました.関東会場の筑波大学に行って発表してきました.家からドアツードアで3時間...まさかこんなにかかるとは思わなかったのですが,道中ゆっくり論文も読めて旅行みたいで楽しかったです.(帰りは疲れのせいかぐったり...…

DSIRNLP#1で「ランキング学習ことはじめ」を発表しました

第1回データ構造と情報検索と言語処理勉強会に参加して発表をしてきました.幹事の@overlast さん,ボランティアのみなさま,会場を提供してくださったmixiさんに感謝申し上げます.ランキング学習に関するハードな発表を依頼されたので,気合いを入れて2晩…

F値の前身はE値?

IR

本当はF値で使われている調和平均が相加平均,相乗平均よりも小さくなるという証明を書くつもりだったのだけれど,F値について調べているうちに知らなかった歴史が少しだけ紐解かれた.F値の初出について調べる余力がなかったので,F値の初出をご存じの方が…

Eclipseやantを使わないLucene入門

後輩に煽られたのでLuceneを使えるようにしてみた.ようやく積ん読になっていた "Lucene in Action" がついに火を噴くときがきた模様.長らくJavaは触っていなかったけれど,JavaライブラリってEclipseのようなIDE使わないとimport地獄にはまったり,ant使わ…

情報検索ことはじめ〜教科書編その2 (2011年決定版) 〜

IR

しばらく情報検索に関わるブログ記事を書いていなかったけれど,「情報検索ことはじめ〜教科書編〜」から丸2年が経過し,Modern Information Retrievalの第二版が発売されたことで,2011年版を書いてみようと思ったので,ここ2年で発売された情報検索の教科…

The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料

IR

巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だっ…

情報検索ことはじめ(3): 情報検索 (IR) 分野の国際会議と論文誌

IR

どの会議や雑誌に投稿すべきかの情報を共有するのは素晴らしい - 発声練習を読んで,そういやIR系のカンファレンスまとめを見たことがないなぁ,と思ったのでIR系の研究を取り扱っているまとめてみることにしました.とはいうものの,自分が通ったことないの…

第10回MG輪講: 5章 Index Construction

IR MG

第10回MG輪講に参加してきました.13:00-19:00の長丁場でした.内容が盛りだくさんだったので,帰宅してから復習がてらに学んだ内容をまとめてみました.やっぱりもりだくさんという事実と,参加者以外には到底理解できないであろうまとめノートが出来上がり…

お手軽転置インデクスを用いた検索エンジン: (2) なんちゃって検索サーバ編

IR c

前回: お手軽転置インデクスを用いた検索エンジン: (1) AND検索編 - 睡眠不足?! 前回に続き,なんちゃって検索エンジンを作ってみます.ネットワークプログラミングをやりたかった理由のひとつが,検索エンジンをデーモンとして立ち上げておけば,ソケット…

お手軽転置インデクスを用いた検索エンジン: (1) AND検索編

IR c

突然Cでコードを書きたくなったので,なんちゃって転置インデクスを用いた検索プログラムを書いてみた.転置インデクスとは,索引語と呼ばれる単語が出現する文書情報 (場合によっては位置情報も) を保持したデータ構造のことで,索引語と,それに対応する転…

第7回MG輪講

IR MG

日曜日はMG輪講に参加しました.今日は3章の残りと4章を4.2まで読みました. 3.6 Comparison of indexing methods signature fileフルボッコ まぁ転置リストが長い単語同士のAND検索はsignature fileの方がいいかもね ハイブリッドもあるで "Compressed inve…

Search Engines 2章 Architecture of a Search Engine

IR SE

目次:Search Engines: Information Retrieval in Practice 前回:1章 Search Engines and Information Retrieval 本章では検索エンジンの構造について述べています.本書はこの章で全体像を眺めて,後に続く章で各モジュールについて説明する構成になってい…

Search Engines 1章 Search Engines and Information Retrieval

IR SE

イントロダクション. 情報検索40年の歴史を一瞬振り返り,情報検索とそのアプリケーションである検索エンジンを紹介. 情報検索の課題と,検索エンジンの課題について概要を説明.

Search Engines: Information Retrieval in Practiceを読む

IR SE

Information Retrieval in Practice作者: W. Bruce Croft出版社/メーカー: Pearson Education発売日: 2009/05/01メディア: ペーパーバック購入: 2人 クリック: 56回この商品を含むブログ (4件) を見る IR分野の大御所による教科書. 2月に発売されたはずなの…

文字列探索スターターキット

最近重点的に勉強しているので,これまで集めた教科書情報,資料等へのリンクをまとめてみる.紹介している教科書はほとんど読んでいないので妄言注意. この他にお薦め教科書,勉強法があればぜひ教えてください. 文字列探索は検索対象テキストの中から転…

IR研究者をスコアリングしてみた

IR

前回の記事に対するブックマーク,コメントありがとうございます.最初の四天王は考えてみれば,アルゴリズムと検索アーキテクチャにかなり寄っていました.情報検索の中でも「全文検索システム」という観点で見ていたからです. IRと一言でいっても(人工知…

情報検索ことはじめ〜研究者編〜

IR

昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は…

情報検索ことはじめ〜教科書編〜

IR

2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を本格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩…

Introduction to Information Retrieval

IIRの勉強記録.自分で読んだときのメモ 01 Boolean retrieval (pp.1-18) 02 The term vocabulary and postings lists (pp.19-32) 03 Dictionaries and tolerant retrieval 04 Index construction 04 Index construction (1) (pp.61-67) 04 Index constructi…

Search Enginges: Information Retrieval in Practice

Information Retrieval in Practice作者: W. Bruce Croft出版社/メーカー: Pearson Education発売日: 2009/05/01メディア: ペーパーバック購入: 2人 クリック: 56回この商品を含むブログ (4件) を見る Search Enginges: Information Retrieval in Practiceを…