The Anatomy of Large-Scale Social Search Engine: ソーシャル検索エンジンAardvark論文の輪講用資料

巷 (もしかしたら非常に一部?) を騒がせているWWW2010に採択されたソーシャル検索エンジンAardvark論文 "The Anatomy of Large-Scale Social Search Engine" を読んで,ここ3日間ほど夜なべをして作成した輪講用資料を公開します.普段読まない類の論文だったので色々大変でしたが,非常に勉強になりました.

ちょうど論文を読んだ頃にGoogleによる買収が正式発表になったので非常にタイムリーなネタとなりました.

論文や資料を見ればわかるとおり,個々の技術はオーソドックスな技術の組み合わせになっています.それを組み合わせてひとつのサービスという形で提供し,更に実際のユーザが必要な実証を通じた評価をしている点はとても素晴らしいと思いました.同時にdouble blind投稿大変だったろうなぁ,と思ったり.


「人」の検索エンジンなので,Aardvark自体はウェブ検索エンジンに比べると,それほど大規模なデータを格納しません.しかし,(論文には大体的には書かれていませんが) ユーザが増えてもスケールするようにアーキテクチャアルゴリズムが工夫されています.ソーシャルグラフやトピックモデルの確率を保持するのに転置インデクスが用いられているのには驚きました.アルゴリズムもシンプルなので,MapReduceフレームワークに簡単に載せることが可能です.ここらへんもGoogleが気に入った点なのでしょうか.


資料の最後の方にも書いてありますが,Aardvarkが提供するサービスはTwitterでも提供可能だと思います.Twitterでは実際【急募】などとFollower全員に聞いてみたり,@nameで直接聞いてみたり,ソーシャル検索としての役割を果たしているような気がします.Google buzz + AardvarkがTwitterに対してどのような反撃を仕掛けるのか楽しみです.