02 The term vocabulary and postings lists (pp.19-32)

今日もやる気の神様が降りてきたので読んでみた．相変わらずわかりやすい．

文書(document)の単位をどうするか，というところから始まる．

まずバイト列をlinear sequenceに直そうねー，というところから始まる．外国人にとってはお涙頂戴の始め方である．メリケンさんの95%はここで首をひねるだろう「なんでそんなことが難しいのか？」

次に出てくる単語(token)への分割あたりでアラビア語の例が出てくる．右から読むのだけれど，アラビア数字は左から読むらしい．大変ですな．

詳細は省くけれど，とにかく説明が丁寧．すべてのケースを網羅しているわけではないけれど，そこまで説明するんだ，と思うことが多い．

要点）トークン化は言語依存で，作者泣かせでFA．

言葉の定義たち

トークン化が厳しかったら，もうひとつのアプローチとして，word-based indexingを諦めて，character k-gramsがありますよ．

不要語の選択方法について詳細な解説はなし．後述します，が多すぎ．

general trend...とか，easy way...という出だしが多い．つまり良くも悪くも無難なハナシ．刺激が欲しい年頃の人には向かないかも．

以下，細かい話が続く．ここまで細かい話をする必要があるのだろうか？

結局他言語が多いよ，という説明ののちに，色々な言語が抱える問題について簡単に紹介．

ひとつの解決方法として音声記号で考えるというアプローチがある．

聞いたことないや．

と，ここまでで13.5P/1時間．昨日より少し速く読めるようになったー．
今日は寝よう．

教科書オブ教科書．最新手法や王道的な手法について引用を「あえて」していないような印象を受ける．網羅的に説明をしておきながら，深くなりすぎないように気をつかっている様子が伺える．それが俺の正義（ジャスティス），と勝手に解釈している．そこらへんはFSNLPと通じるものがあり．
それにしても○○頁で後述する，という記述が多い．本になったら直っているんだろうか．
執筆中の2005年頃，というfootnoteがあった．そんな前から書いていたんだ．．．
情報検索アルゴリズムを読んでいればor少しでも事前知識があれば今まで読んでいる部分については，復習+新たな再発見，という感じです．