ICML2012読み会に参加して発表してきました

ICML2012読み会に参加して発表してきました．主催の@nokunoさん，会場を提供して頂いた@shuyoさん，サイボウズさん，参加者のみなさまありがとうございました!

自分は以下の論文を紹介

C. Scherrer, M. Halappanavar, A. Tewari, D. Haglin, "Scaling Up Coordinate Descent for Large L1 Regularization Problems"

発表資料をslideshareにupしました．

ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularization Problems from sleepy_yoshi

発表資料に書いてあるとおり，並列Coordinate Descentの一般化フレームワークの提唱と，2つの並列Coordinate Descentの提案，ベンチマークによるConvergence rateとScalabilityの比較が本論文の貢献．昨年のICMLで発表されたShotgunアルゴリズムなども比較されている．

Coordinate Descentは名前くらいは知っていたけれど，ちゃんと読んだことなかったのでとても良い勉強になった．提案手法のひとつであるTHREAD-GREEDYの収束性に関する証明がなく，なんで良いのかということもわかっていない．なんだかKDDぽい論文ですね，とつぶやいたら，「このデータセットじゃKDDは通らない」というツッコミを頂き思わず爆笑．せっかくマシンスペックもよいのだからもっと大規模なデータセットで試してほしいなぁ，と思ったり．

なお，発表資料に?をつけてあるTHREAD-GREEDYのSelectステップに関する記述が表と本文で違っているため，著者に問い合わせ中．返信がかえってきたら修正する予定．

他の方の発表に関する自分用のメモは以下のとおり．

The Big Data Bootstrap (by @tsubosaka さん)

発表資料

大規模データに対するブートストラップ法 Bag of Little Bootstrap (BLB) の提案
b(n)の非復元抽出 (通常のブートストラップと違うところ)
b(b) からn個を多項分布に基づいてサンプリング
サンプリングした結果からパラメータを推定
精度はb(n)の決め方に依存するので，使ってみないと感覚がわからないかも．

Efficient Decomposed Learning for Structured Prediction (by @nokuno さん)

発表資料

structured output learning の高速な近似デコード手法であるDecLを提案
デコードの2つのアプローチ
- (1) Global Learning (GL): Exact but slow
- (2) Local Learning (LL): Inaccurate but fast
- DecL is exact in some assumption but faster than LL
Structured SVMの\Delta (y^j, y) にはハミング距離などを用いる?
探索空間をy_goldの近傍に絞る
- ラベルベクトルのハミング距離?
近傍に限定しすぎると精度が下がるのは適切な負例がパラメータ学習対象にならないから?
アイディアはわかりやすいけれど，goldラベルに対する近傍の決定方法に大きく依存しそう
- 著者はそこにドメイン知識を取り入れることができるという主張

Poisoning Attacks against Support Vector Machines (by @kisa12012 さん)

SVMの精度を最も下げるサンプルを1つ生成する手法の提案
- 悪さをするためではなく，ロバストな分類器を学習するためのサブタスク的な位置づけ

今回の問題は攻撃者が設計側の訓練データの特徴ベクトル，ラベルが全てわかっている前提 (かなり特殊な問題設定)
Incremental SVM
- Reserve Point, Support Vector, Error Vector
- Support Vector以外はカテゴリを固定する，という条件下で学習

現実的にはf(x)の出力が一部わかっている状態で，訓練データの分布もしくは，モデルの様子を推測するのが大切
そもそも分類器が特定できない場合には?
adversarial learning 自体はそこまで新しくないと思われるが，実用上重要な問題がまだopen questionな感じ．

Dirichlet Process with Mixed Random Measures (by @shuyo さん)

発表資料

LDAにおける文書に対してラベルが付与されている場合に，ラベルに対応するトピック数とトピックをよしなに決めてくれるDP-MRMを提案

Labeled LDA [Ramage+ 09] (既存手法)
- Each document has an observed label
- なお Blei のsupervised LDA とは少し違う
- 文書に対してラベルが付与された場合に，ラベルに対応するトピックを指定することができる
  - 例) sports -> (0, 1, 3), govern -> (0, 4, 8)
  - 経験的には全てのラベルに共通のトピックを用意しておくとよい

[ポイント] L-LDAに対するメリット: ラベルに対するトピック数が自動決定されること
- 論文の結果を見るとわかりやすい

感想

自分を含めて5件だけだったので約4時間程度で終了．非常に密度の濃い時間を過ごすことができて楽しかった．

今回紹介された論文はそれぞれ興味があったので楽しく聞くことができた．その中でも個人的には @kisa12012 さんが紹介した "Poisoning Attacks against Support Vector Machines" が面白かった．この論文の手法や問題設定はまだまだ現実的ではないけれど，産業的におおいに価値のある (将来的に重要な技術となると考えている) 課題であるし，どのような open question があるのかということを示すという意味で価値は大きいように見える．実用化するためにはまだまだやることがたくさんある，かつ，その見通しがある程度見えているところが個人的にわくわくした．

読み会あとの食事では "LDA女子" という新語が誕生したり，TokyoNLPを振り返り，こんな勉強会(に/を)したいよね，というような話などをする．TokyoNLPの第一回は2010年7月だからちょうど2年前．なんだかもう4-5年前のような気がする．今までたくさんの勉強会に参加させて発表もたくさんさせて頂いて，たしかに昔よりかはいろんなことがわかるようになったけれど，はたして自分は技術者として，何かの専門家としてきちんと前に進んでいるのだろうか，などと考えながら帰宅する夏の夜．

寿司アカデミーを食べられなかったのが唯一の心残り．次回こそ!