2008-01-01から1年間の記事一覧

今年を振り返って

年末も相変わらずばたばたしているけれど, やっぱり振り返りっぽいものを書いて,振り返ろうと思った 以下,今年をぐだぐだ殴り書き. 学生最後の4ヶ月 年が明けて,修論に追われて. それでも韓国の会議に参加して. 修論発表して. 旅行行って. 楽しい日…

情報検索ことはじめ〜教科書編〜

IR

2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を本格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩…

無印結婚物語

無印結婚物語 (角川文庫)作者: 群ようこ出版社/メーカー: 角川書店発売日: 1992/03メディア: 文庫購入: 1人 クリック: 1回この商品を含むブログ (7件) を見る (2008-12-07読了)男性視点の物語もひとつあったけれど,基本的には女性視点. 世の中の女性の結…

プラナリア

プラナリア (文春文庫)作者: 山本文緒出版社/メーカー: 文藝春秋発売日: 2005/09/02メディア: 文庫 クリック: 22回この商品を含むブログ (140件) を見る (2008-12-01 読了)直木賞受賞作.女性視点.共感できなかったけれど,世の中に受けたという理由はな…

Rを使って順位相関係数を計算する

R

順位相関係数といえばSpeamanさんとKendallさんが有名.順位相関はいろんなところで使うので,Cで練習がてらに書いてみた.けれど同順位がある場合,実装が少しややこしい.ぱっと実装できなかったので,諦めてRのcor関数を使うことにした.出力を他のプログ…

18 Matrix decomposition and latent semantic indexing (pp.369-384)

IIR

ちょっと飛ばして,先にIIR18章を読んでみた.単語文書行列を特異値分解して新しい空間でベクトル空間モデルを使うというLSIの話.ページ数が少なかったので,魔が差して翻訳もしてみた.さらに数式が多いのでTeXで書いてみた.ここまで来たらこだわろうとAB…

タイガーと呼ばれた子

タイガーと呼ばれた子--愛に飢えたある少女の物語 (ハヤカワ文庫 HB)" title="タイガーと呼ばれた子--愛に飢えたある少女の物語 (ハヤカワ文庫 HB)">タイガーと呼ばれた子--愛に飢えたある少女の物語 (ハヤカワ文庫 HB)作者: トリイ・ヘイデン,入江真佐子出…

小説・秒速5センチメートル

小説・秒速5センチメートル (ダ・ヴィンチブックス)作者: 新海誠出版社/メーカー: メディアファクトリー発売日: 2007/11/14メディア: ハードカバー購入: 30人 クリック: 318回この商品を含むブログ (123件) を見る (2008-10-15読了)深海誠自身による小説.…

14 Vector space classification (pp.266-292)

IIR

タイトルから章の意味がわからなかったけれど,kNNのようなinstance based learningの話だった.納得.ざっくりとポイントをまとめるとこんな感じ. Rocchio classification kNN time complexitiy and optimality any-of classifier, one-of classifier bias…

ケータイ小説的。――“再ヤンキー化”時代の少女たち

ケータイ小説的。――“再ヤンキー化”時代の少女たち作者: 速水健朗出版社/メーカー: 原書房発売日: 2008/06/09メディア: 単行本購入: 25人 クリック: 781回この商品を含むブログ (213件) を見る (2008-10-12読了)ケータイ小説はヤンキー文化の再来らしい.ち…

シーラという子

シーラという子--虐待されたある少女の物語 (ハヤカワ文庫 HB)" title="シーラという子--虐待されたある少女の物語 (ハヤカワ文庫 HB)">シーラという子--虐待されたある少女の物語 (ハヤカワ文庫 HB)作者: トリイ・ヘイデン,入江真佐子出版社/メーカー: 早川…

転置インデックスで学ぶ検索エンジンの中身アプリ

学生の頃から情報検索っぽい研究をやっていたくせに,転置インデックスてこんなものなんだ,ということを知るまで検索エンジンが正直怖かった.転置インデックスの概要を理解したら急に甘く見はじめるようになった(それはそれでいかんのだけど).位置情報…

ナイーブベイズによるテキスト分類アプリで日本語を扱えるようにしました

たくさんの方にブックマークして頂いて,感謝感激でした.感謝の意味をこめて少しだけ改良しました.といっても自分の力ではないですが... 昨日の日記でも紹介したTinySegmenterによって日本語の文も扱えるようにしました Naive Bayes Text Classifer ver…

TinySegmenterによるJavaScriptエンジンベンチマーク

ナイーブベイズアプリが僕にとっては一生の思い出に残るほどはてなブされたので,きちんと日本語も分割できるように改良しようと思った.工藤拓氏のJavaScriptだけで書かれた分かち書きソフトウェアTinySegmenterを使うことにした. TinySegmenter:JavaScrip…

ナイーブベイズによるテキスト分類体験アプリ

もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの.Naive Bayesを世の中に広めるために,きちんと公開することにしました. Text classification by Naive Bayes (2008-09-11追記)好評だったので日本語を扱えるようにしました.…

同じvalueを持つハッシュを生成

my @array = qw(apple orange pine); のような配列が渡された際に, my %hash = ( apple => 1, orange => 1, pine => 1, ); のように同じ値を持つハッシュを生成したい.クックブックにも載ってなかったので頭の体操. ハッシュの初期化はリストで.というイ…

Lightweight Language Future (LL Future 2008) に行ってきました

そういやこういう会議?に参加するの初めて.会社の同期と一緒に行ってきました. 楽しかった!来年も行きたい. 初めての生Larry Wall.そして休憩時間を狙ってサインをもらっちゃいました! いろいろメモを取ったけれどまとまっていないので,雑感をば Lar…

グーグルが日本を破壊する

グーグルが日本を破壊する (PHP新書 518)作者: 竹内一正出版社/メーカー: PHP研究所発売日: 2008/04/16メディア: 新書購入: 2人 クリック: 29回この商品を含むブログ (31件) を見る (2008-08-26読了)タイトルは適切につけましょう. 「グーグル」が「日本…

ニワトリを殺すな

ニワトリを殺すな作者: ケビン・D.ワン,Kevin D. Wang出版社/メーカー: 幻冬舎発売日: 2003/03メディア: 単行本購入: 1人 クリック: 16回この商品を含むブログ (16件) を見る (2008-08-24読了) 本書のストーリーはフィクションだが,要所要所にホンダの創…

ChangeLogメモのエントリをタブ抜きコピーする関数:cl-item-copy

夏休みで普段やらないことをやろうと思い立ってelispを書いてみた.ChangeLogメモを見ている際に,カーソルがアイテムの中にあったときに呼び出されると,そのアイテムをkill-ringにコピーする.その際行頭のタブを抜いてくれる. # clmemoにタブ抜きコピー…

elispのmapcarが使えない

Common Lispのmapcarと使い勝手が違うっぽい.時間がないので問題点だけ列挙.こういうことがしたかった. (defconst muse2puki-muse-list1 " - ") (defconst muse2puki-muse-list2 " - ") (defconst muse2puki-muse-list3 " - ") (defconst muse2puki-puki-…

半落ち

半落ち (講談社文庫)作者: 横山秀夫出版社/メーカー: 講談社発売日: 2005/09/15メディア: 文庫購入: 15人 クリック: 366回この商品を含むブログ (266件) を見る (2008-08-16読了)映画化されていたはずだけれどストーリーを知らないし,読んだこともなかっ…

風の耳たぶ

風の耳たぶ (角川文庫)作者: 灰谷健次郎出版社/メーカー: 角川書店発売日: 2003/12メディア: 文庫この商品を含むブログ (7件) を見る (2008-08-16読了)親友のもとへ尋ねる老夫婦,ふらりと行き先を決めない気ままな旅のお話.灰谷健次郎は,兎の眼(それも…

gamma codeを実装してみた

variable-byte(VB) codeに引き続きgamma codeを実装してみた.今度はかなり苦労. というのもVBのように固定長でないため,異なるビット長の結果を詰めて格納していかなければならない.先輩に教わったマスクの作り方(~0ビット列を左シフトして戻ーす,右シ…

Variable byte(VB) codeを実装してみた

なんだかbit-wiseな圧縮手法の実装を練習してみたくてカタカタしてみた. コードは汚いので割愛.結果 4Byte integer -> VB code # 824, 5, 214577を圧縮 before: 00000000 00000000 00000011 00111000 00000000 00000000 00000000 00000101 00000000 000000…

ザ・マジックアワーを観た

公開終了する前に観てきた.さすが三谷幸喜. まわりの人は有頂天ホテルは嫌いだけど,これは好き,と言っていた. 僕はどちらも好きなんだけどなぁ. 邦画って「もう一度見たい!」「何度観てもいい!」という作品が少ないような気がする. そういう意味で…

ナイトミュージアムを観た

ナイト ミュージアム [DVD]出版社/メーカー: 20世紀フォックスホームエンターテイメントジャパン発売日: 2007/08/03メディア: DVD購入: 2人 クリック: 39回この商品を含むブログ (166件) を見る映画館で上映されていたときは絶対観ねー,どうみてもDQN映画と…

04 Index construction (3) (pp.72-77)

IIR

ようやく4章読了.logarithmic mergingをやっと理解.理解すると簡単なことに気がつく.英語で理解できない->日本語の解説を探す,という悪癖が徐々に直ってきた.逃げちゃだめだ逃げちゃだめだ. ただし,floor(T/n)回処理しなければいけないという部分だけ…

04 Index construction (2) (pp.68-72)

IIR

昨日の続きを読んだ. 4.3 Distributed indexing どうやって分散するか termIDで分散するか,docIDで分散するか 多くの検索エンジンはdocIDで分散しているらしい 本書ではtermで分散するindexを紹介 本節はメインがMapReduceの説明で,特に目新しいものはな…