ICML2013読み会に参加して発表してきました

ICML2013読み会に参加して発表してきました．幹事の @sla さん，会場提供してくださった東大中川先生，発表者，参加者のみなさまに改めてお礼申し上げます．

タイムテーブルは以下のとおり．

18:00-18:20 @sla : "Learning Spatio-Temporal Structure from RGB-D Videos for Human Activity Detection and Anticipation"
18:20-18:40 @beam2d: "Local Deep Kernel Learning for Efficient Non-linear SVM Prediction"
18:40-19:00 @conditional: "Vanishing Component Analysis"
19:00-19:20 @jkomiyama_ : "Active Learning for Multi-Objective Optimization"
19:20-19:40 @kisa12012 : "Large-Scale Learning with Less RAM via Randomization"
19:40-20:00 @Quasi_quant2010 : "Topic Discovery through Data Dependent and Random Projections"
20:00-20:20 @tabe2314 : "Fast Image Tagging"
20:20-20:40 @unnonouno : "ELLA: An Efficient Lifelong Learning Algorithm"
20:40-21:00 @sleepy_yoshi : "Distributed Training of Large-scale Logistic Models"

会場まで離れたところから向かったため，時間がかかることもあって @sla さんの話の途中から参加．@mamoruk さんの隣，@tsubosaka さんの前に座る．そういえば東京にいらしてから初めてお会いする気がする．@tsubosaka さんもなんだかんだで久々な気が…．20分発表だとさくさく進んでちょうどよい．議論も活発に出て，たいへん刺激的な時間だった．最後に急きょ @tkng さんのDeepな話があったり．結局会場利用可能な22:00ぎりぎりまでかかったけれど，大変充実した4時間だった．ご飯に参加しなかった方々とゆっくり喋れなかったのが少し残念．

個人的には @kisa12012 さんが紹介した Large-Scale Learning with Less RAM via Randomizatin が面白かった．重みベクトルの各次元にfloatサイズ要らないよね〜，精度を落とさないようにビット数減らそうよ〜というのがモチベーション．ICMLということもあってか実装寄りの話はないのだけれど，むかーし検索エンジンの転置インデクスの圧縮とかやっていたことがあったので，興味深く聞くことができた．

@unnonouno さんのLifelog learningにはいろんな意味で会場が大盛り上がりだった．たしかに問題設定も面白いけれど，どちらかというとGO-MTLを知らなかったので従来のマルチタスク学習の話として面白かった．ELLAではLとsを学習するのがキモということになっているけれど，直面しているタスクに対して一番効くモデルを選択するメタエージェントのような機能の方が自然のように思える，機械学習的には面白くないのだろうけれど．

自発表の資料を以下にup．

ICML2013読み会: Distributed training of Large-scale Logistic models from sleepy_yoshi

最初の一枚概要に言いたいことは全て書いてあるのだけれど，要約するとこんな感じ．

多クラスロジスティックで1万クラス以上の大規模な問題を扱うと，クラス数x次元数だけのパラメータベクトルが必要になるため，並列学習をしたくなる．多クラスロジスティック回帰の対数尤度にはlog-sum-expがあるため，クラス毎に並列学習ができない．そこで，並列学習可能なlog-sum-expの上界を

実はほかにも気になる論文があったのだけれど発表者に手を挙げてしまった手前，maximize 面白さ s.t. 論文の内容を理解できるという最適化問題を解く必要があり，この論文を選択された．読んでみると，大変わかりやすく書かれており，自分にとって良いタイミングで良い論文を読むことができたというのが率直な感想．

実はおとといまで凸関数の1次の条件ってなーに? という状態だったのは秘密．これをきっかけにいくつか論文を眺めてみたけれど，log-concavity bound, double majorization bound などいろんなboundがあるみたい．たんにboundすればよいわけではなく，それがどれだけtightであるかということも気にしなければいけない．今回の場合は非凸なんだけれど，実は問題ありませんでしたー (ぺろ) というちょっと意外なオチ．非凸だけれど停留点がひとつという珍しいケース．最近は理論解析に興味が向いているので，そろそろRegret解析に手を出してみようか．

また本論文でざっと概観されている最適化手法まわりはここ2-3年興味を持って論文を読んでいたので，だいぶ理解が進んできた．ADMMをちゃんとわかっていないのだけれど，実装してみると理解できるのだろうか．夏休みの課題にしてみようか．

まぁとにかく発表者に立候補してから参加者欄がガチ勢で埋め尽くされ，週末ものすごいプレッシャーの中で論文を読むことになったけれど，終わってみれば大変良い機会だった．勉強のための勉強ではあれなので，いろいろと今後に活かしたい (小学生並みの豊富)