IIR

18 Matrix decomposition and latent semantic indexing (pp.369-384)

IIR

ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話.ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB…

14 Vector space classification (pp.266-292)

IIR

タイトルから章の意味がわからなかったけれど,kNNのようなinstance based learningの話だった.納得.ざっくりとポイントをまとめるとこんな感じ. Rocchio classification kNN time complexitiy and optimality any-of classifier, one-of classifier bias…

gamma codeを実装してみた

variable-byte(VB) codeに引き続きgamma codeを実装してみた.今度はかなり苦労. というのもVBのように固定長でないため,異なるビット長の結果を詰めて格納していかなければならない.先輩に教わったマスクの作り方(~0ビット列を左シフトして戻ーす,右シ…

Variable byte(VB) codeを実装してみた

なんだかbit-wiseな圧縮手法の実装を練習してみたくてカタカタしてみた. コードは汚いので割愛.結果 4Byte integer -> VB code # 824, 5, 214577を圧縮 before: 00000000 00000000 00000011 00111000 00000000 00000000 00000000 00000101 00000000 000000…

04 Index construction (3) (pp.72-77)

IIR

ようやく4章読了.logarithmic mergingをやっと理解.理解すると簡単なことに気がつく.英語で理解できない->日本語の解説を探す,という悪癖が徐々に直ってきた.逃げちゃだめだ逃げちゃだめだ. ただし,floor(T/n)回処理しなければいけないという部分だけ…

04 Index construction (2) (pp.68-72)

IIR

昨日の続きを読んだ. 4.3 Distributed indexing どうやって分散するか termIDで分散するか,docIDで分散するか 多くの検索エンジンはdocIDで分散しているらしい 本書ではtermで分散するindexを紹介 本節はメインがMapReduceの説明で,特に目新しいものはな…

04 Index construction (1) (pp.61-67)

IIR

4章の前半1/3くらい読んだ.読む時間はだんだん速くなっているけれど,理解しているか確認しながらメモを取るとものすごい時間がかかってしまう.でも3日で忘れないためメモする.今日学んだこと hadware basics blocked sort-based indexing (BSBI) single-…

02 The term vocabulary and postings lists (pp.19-32)

IIR

今日もやる気の神様が降りてきたので読んでみた.相変わらずわかりやすい. 2.1 文書(document)の単位をどうするか,というところから始まる. まずバイト列をlinear sequenceに直そうねー,というところから始まる.外国人にとってはお涙頂戴の始め方である…

IIRの一章を読んでみた

IIR

発売まで2ヶ月を切ったということもあって,噂のIIRことIntroduction to Information Retrievalを読んでみた. Introduction to Information Retrieval作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge Univers…