SEXI2013読み会に参加して発表してきました

SEXI2013読み会あらためSEXI2013/WSDM2013読み会に参加して発表してきました.会場を提供してくださったyesekkyさんおよび株式会Gunosy様,幹事の@y_benjoさんに改めて感謝申し上げます.

SEXI2013 (Workshop on Search and Exploration of X-Rated Information at WSDM2013) はアダルト情報検索に関するワークショップでウェブ系のメジャーカンファレンスWSDM2013のワークショップ.以下の公式ページに予稿集が全て公開されている.

世界広しといえどSEXI2013の論文読み会を開催したのは我々だけではないだろうか.これが誇れることなのかわからないけれど.

さて本ワークショップの存在を知ったのは今年の2月頃だろうか.思わず以下のつぶやきをしたことを覚えている.

そして読み会を開催するべく@y_benjo先生に無茶ぶりをする.

そして本日,素晴らしい勉強会を開催するに至ったわけである.

自発表は "Adult Query Classification for Web Search and Recommendation".著者はロシアのシェアNo.1検索エンジンYandexの所属.

自発表の資料から検閲削除したものを公開.

ざっくり言うとアダルトクエリ判別を3値分類で解く.特徴として検索結果に含まれる文書のAdultnessスコアを利用するというもの,じゃあそのAdultnessスコアをどうやって計算するのよ,というところに突っ込みどころがあって,そこが明確になっていないため,論文としての魅力は半減.

Yandexの年間総クエリ投入数の予測

ただし,資料のおまけに追記しているとおり,Yandexの1年間のユニーククエリ数が記載されているため,それを元に年間総クエリ投入数を推測することができる.推測にはHeapsの法則を利用.月間約10億という数字が出た.

3年前の記事によると日本シェアNo.1の検索エンジンYahoo! Japanの総クエリ数が約23億という情報があるので,インターネット人口が日本の約60%である (この情報を参考) のでそれほど外していない数字なのではないかと勝手に思っている.

これを思いついたのが会場に向かう電車の中だったので会場に着いてから内職でなんとか資料作成.Heapsの法則やAOLクエリログに対する実験詳細については昨年書いた以下のブログ記事を参考あれ.

余談だがYandexは最近アカデミックな活動が徐々に目立ってきている.これから勢いはさらに増すのかもしれない.


WSDM2013の部で @harapon さんが担当した論文 (Identifying Users' Topical Tasks in Web Search) がSVMをL-BFGSで最適化していた (そしてなぜかSMO最適化のものと比較していた) ので,SVMは二次計画だから準ニュートン法は利用できないのか,という疑問が沸いた.これについては帰宅してから整理できた & 少しまとまった情報になるのでこちらに別記事として記述.


今回の勉強会の感想はとにかく楽しかった! 今までウェブ上でしか知らなかった人ともお会いすることができて大変有意義な一日でした.そして公の場では発言できないような単語が飛び交う異常な雰囲気で,熱気のこもった議論が飛び交う素敵な勉強会でした.参加者のみなさまに改めてお礼を申し上げます.また次回!