NIPS2010読み会に参加して発表しました

12/26(日)にサイボウズラボにてひっそりと開催されたNIPS2010読み会に参加して発表してきました．発表資料をslideshareに置いておきます．

T. Qin, X. Geng, T.-Y Liu. A New Probabilistic Model for Rank Aggregation. NIPS2010.

NIPS2010読み会: A New Probabilistic Model for Rank Aggregation

View more presentations from sleepy_yoshi.

"A New Probabilistic Model for Rank Aggregation" というタイトルから簡単に推測できるように，rank aggregationのための新しい確率モデルを提案している．

rank aggregationを一言で説明すると，複数のランキングリストが入力された際に，ひとつのランキングリストを出力するような課題．(最近，あまり見かけなくなってしまったけれど) メタ検索のようなものを考えると，イメージしやすい．

rank aggregationは問題設定によって以下の2軸でとらえることができる．(詳しくは資料を参照のこと)

分類
- 1. 与えられるリストの情報
  - order-based (順序情報のみ)
  - score-based (アイテムに対するスコアも与えられる)
- 2. 訓練データの有無
  - supervised
  - unsupervised

以下の2つの既存手法の良いところどりをするのが本論文の提案手法．

既存手法
- Mallowsモデル (距離ベース型)
  - 利点: さまざまな距離を利用可能
  - 欠点: 計算量はんぱない
- Luceモデル (多段階型)
  - 利点: 効率よく計算が可能
  - 欠点: 任意の距離を利用できない

提案手法のひとこと要約
- Mallowsモデルを効率よく計算するために，k位まで決定されたリストの入力リスト群に対する距離を剰余類の平均距離で計算するCPSモデルを提案する．

learning to rank (ランキング学習) については，一通り勉強したつもりでしたが，rank aggregationは今回初めて勉強したので，とても苦労した．代数や集合というものに一切触れることがなかったゆとりなので，対称群とか剰余類といった見慣れない単語が出てきたときにはかなりヒヨった．けれど，まぁ，きちんと読んでみると，直感的でわかりやすいし，これをきっかけに群という概念を身近に感じることができた．(が，発表時によく理解できていないことが露呈し，いつものように@shuyoさんに助けていただいた．) どうやらrank aggregationや順序の確率モデルの文脈ではよく使われる表現の仕方らしい．

また，今回の発表資料作成にあたり，しましまさんの下記の資料が大変参考になりました．Twitterでも色々フォローしてくださり，ありがとうございました!

神嶌敏弘 "順序の距離と確率モデル", 人工知能学会研究会資料, SIG-DMSM-A902-07 (2009)

その他，しましまさんに推薦いただいたサーベイ論文と本

以下，他の方々の発表聴講メモ

t-logistic regression (@shuyoさん)

発表資料

ロジスティック回帰をラベルノイズに対して頑健にしたい
- 拡張された指数分型分布族を用いる
- Student's t-distribution を事前分布とする

エスコート分布を利用
- Tsallisエントロピー
- Tsallis統計として最近流行っているらしい

[Kuno+]の定理を利用
- 凸関数の掛け算も，条件があえば，凸であるという証明も可能
- 元論文 http://www.springerlink.com/content/u7k84u823j4l2842/

BrownBoost/RobustBoost
RampSVM
- ramp loss: hinge-lossのマイナスが大きくなったところが平坦になったようなloss

RampSVMについてメモ
- Collobert, R., Sinz, F., Weston, J. and Bottou, L., “Trading convexity for scalability”, ICML, 2006.
- Fast Online Training of Ramp Loss Support Vector Machines. by Zhuang Wang , Slobodan Vucetic

The Multidimentional Wisdom of Crowds (@tsubosakaさん)

発表資料

Crowd sourcing
- 例) Amazon Mechanical Turks

大量のアノテータから得られた大量のラベル情報を元に，正解ラベルを生成するタスク
- 安かろう，悪かろう
- アノテータによって判別能力が異なる

今回はユーザの判別に「バイアス」がかかっていることをモデル化することが新しい

signal detection theoryと同じ問題
- ノイズから被験者がどれだけただしく信号を認識できるのか

実験では，[Whitehill+ 2009]の結果がmajority voteに劣っていた．
- [Whitehill+ 2009]の手法がバイアスに弱いことを示している．
- 被験者に対して提示した情報がバイアスを与えているのではないか?
- [Whitehill+ 2009] の場合，論文を読む限り，アノテータに対するバイアスを避けるようにしているようにも読み取れる．

論文の主張どおりの結果．

参考文献
- [Whitehill+ 2009] J. Whitehill, P. Ruvolo, T.-F. Wu, J. Bergsma, J. Movellan. Whose Vote Should Count More: Optimal Integration of Labels from Labelers of Unknown Expertise. NIPS2009.

An Inverse Power Method for Nonlinear Eigenproblems with Applications in 1-Spectral Clustering and Sparse PCA (@niamさん)

逆べき乗法 (Inverse Power Method; IPM)
- PM: x^{k+1} = A x^k
- IPM: A^{-1} x^{k+1} = x^k

一般化微分 (general differential) を利用
- 劣微分よりも拡張された話

途中から数式についてゆけず．．．

Towards Property-Based Classification of Clustering Paradigms

Margareta Ackerman, Shai Ben-David, David Loker (@tksakakiさん)

発表資料

クラスタリング手法の分類と性質について
- 距離関数とデータ点だけを入力とするクラスタリング手法のクラスではなく，クラスタ数も与えるクラスのクラスタリング手法に着目

クラスタ数を与えるクラスタリング手法に着目することにより，
- Kleinbergらが提案したクラスタリング手法が持つべき性質について拡張
- Kleinbergのclustering不可能性理論も同様に少し拡張

クラスタリング手法の性能について，性質から論じられるとかなり素敵．

質疑応答で出てきて気になったこと
- clusteringにはcomplexityのような概念は存在しないのか?

Infinite Relational Modeling of Functional Connectivity in Resting State fMRI (@suzuvie_reさん)

発表資料

脳の活動部位にInfinite Relational Modelを適用
- 要するにクラスタリング

IRM
- 加算無限
- MAP推定で解くことが多い．VBで解くとすかすかになる?

fMRIの図
- 健常者 vs. 多発性硬化症
- 有意に異なる部分あり

図がきれい
- PDFファイルが5MB超

脳の分析にIRMを用いるといったものはなかったらしい

An Approximate Inference Approach to Temporal

Optimization in Optimal Control (@wk77さん)

最適制御のお話
- 門外漢なのでほとんどわからなかった．

ある時刻tにおいて，t+T時刻までの制御を最適化する
- 通常，Tは固定．Tを可変にして最適化する
- 柔軟に目的関数を設定可能
  - e.g., 時間最小，動作最小

最適制御問題に対するベイズ推論アプローチ
- AICO法

ハードウェアが進化したので，センサの性能は上がったし，ノイズも少なくなった．ソフトウェア側に複雑なアルゴリズムが必要ないのかもしれない．

Parallelized Stochastic Gradient Descent (@nokunoさん)

ブログ記事

Stochastic Gradient Descent (SGD) の並列化
同じ著者らの "Slow learners are fast (NIPS2009)" を昨年読んでいたのでwktkしながら聞けた

ひらたくいえば
- mapタスク: ノード台数分だけデータを分割して，個々のノードでSGDを走らせる (mapタスク)
- reduceタスク: パラメータを平均する

SGDは収束のためには，学習率を減少させる必要がある
- 本論文では学習率 \ita が固定なのが気になる

single machineの結果よりも，分散させた方がtraining errorが小さくなっている．
- 順番になめて学習を終えている，かつ学習率も固定なので一番最後に学習したデータの影響を受けているのでは?
- 分散させた場合，複数パラメータの平均になるので

まとめ

13:00-19:30の長丁場．自分なりに集中して聞いていたこともあり，普段聞かない分野の話もあり，頭がかなり疲れた．終わった後は韓国料理屋で肉をつついて打ち上げ．

会場を提供してくださったサイボウズ株式会社さん，@shuyoさんに深く感謝!

去年の今頃参加していたら ??? の連続だったと思う．置いていかれたところもあったけれど，最低限のどういうロジックなのかというところは理解できたと思う．習うより慣れろとはよく言ったもので，とにかくこういった話に触れる時間を増やした結果，なんとなくだけれど，少しずつ数式や手法に対するイメージが沸くようになった，と自分では思っている．

これで今年の勉強会も終わり．

今年もたくさんの勉強会に参加し，発表させて頂きました．この一年間で機械学習を中心に知識やノウハウを相当蓄積し，自分ではかなり成長できたと思っています．これからも変わらないペースで，願わくばこれ以上のペースで成長したいと思っている次第です．勉強会メンバーのみなさま，特に幹事のみなさま，本当にありがとうございました．これからもどうぞよろしくお願いします．

というわけで，みなさま良いお年を．
たぶん年内に今年の振り返りを書く予定．