04 Index construction (1) (pp.61-67) - シリコンの谷のゾンビ

4章の前半1/3くらい読んだ．読む時間はだんだん速くなっているけれど，理解しているか確認しながらメモを取るとものすごい時間がかかってしまう．でも3日で忘れないためメモする．

今日学んだこと

ハードウェアの基本をば

解説は深いところまで踏み込んでいない．以下の点に留意するべきらしい

メモリアクセスはディスクアクセスより速いよ．できるだけデータはメモリに載せませう
ディスクのread, writeする場合はできるだけ一塊が大きいデータを扱いませう
- シークの間は何もできないから，細切れのデータとか最悪
OS（と書いてあるけれどファイルシステムでなくて？）は基本的にブロック単位でファイルを扱う
- ブロック単位より小さいファイルの読み書きにはブロックと同じ時間がかかる
ディスクからメモリに読み込むのにはシステムバスが使用される．システムバスはCPUとは異なるので，これらは並列に処理することができる．
- なのでuncompress dataを読み込んでdecompressする方が，uncompressed dataを読み込んで処理するより速い

ここからはnonpositional indexのハナシ．nonpositional indexは以下の流れで構築される

termからtermIDにmapするのはon the flyで処理するsingle passとtwo-passの二通りがあるけれど，本書ではsingle passらしい．深く考えないでおく．

blocked sort-based indexing (BSBI) は，メモリにのっかりきらないからディスクを使おうというスタート地点

最後のマージはマージソートなんだろうな．

p.66 beefy（=太った）という単語にちょっと笑った

BSBIの問題点はterm->termIDのマッピングをしなければいけないということ．termはそのままでいいじゃん，という発想からSingle-pass in-memory indexing (SPIMI) が出てくる．

BSBIとの違いは，postings listにpostingをダイレクトに追加するというもの．termID-docID pairsを作成してからマージするBSBIとは違い，動的にposting listに追加していく．

メモリがいっぱいになるまで，dictionaryにterm-docIDを追加していって，メモリがいっぱいになったらdictionaryをsortしてからディスクに書き出す．

最後にBSBIと同様にマージする

利点はふたつ

postings listに対するメモリは適当にallocateしておいて，足りなくなったら2倍に増やしてあげる．

4.4 Distributed indexing以降はまだ読んでいない．