EMNLP2011読み会でCollaborative Ranking: A Case Study on Entity Linkingを紹介しました

@nokunoさんが主催するEMNLP2011読み会に参加して発表してきました.会場を提供してくださったサイボウズ様,@shuyoさん,Hさん (ID不明のためイニシャルで…) ,@nokunoさん,参加者のみなさん,どうもありがとうございました! この場を借りて改めてお礼申し上げます.

発表した資料をアップしました.

自分の発表したCollaborative Ranking: A Case Study on Entity Linkingについて概要を紹介.

NLPで継続的に行われているNamed Entity Recognition系のコンペティションのひとつであるTAC (Text Analysis Conference) の KBP (Knowledge Base Population) Track の中でEntity Linkingというタスクが対象.これは入力されたクエリに対してKnowledge Baseから回答候補を提示するというもの.本論文では選択した回答候補を順位づけることで,回答を決定するシステムを想定し,回答候補が与えられた場合の順位づけ問題を対象としている.

Collaborative Rankingというのは単一のrankerを使うのではなく,

  • (1) 複数のcollaboratorのfeatureをランキングに利用するquery-level collaboration
  • (2) 複数のrankerの結果をランキングに利用するranker-level collaboration

という2つのアイディアの総称.ranker-level collaborationはLearning to Rankの文脈では徐々に一般的になりつつアイディアなので,それほど新しいとは思わなかったけれど,(1)query-level collaborationは検索の文脈では見かけないアイディアだったので面白かった.(「クエリ拡張」と解釈すると至極当たり前なのだけれど…)

そういえば発表中に言い忘れたのが,論文で使われているNaive ranker以外の手法でどのようなときにNILを返すのかということが不透明だったりする.そのほかにも,referしている論文を読まないとわからないことがあったり,KBP Trackについて知らないと意味がわからないことがあるなど,読むのがなかなか大変だった.


さて今回の読み会の紹介タイトルはこんな感じ (発表順).

  • Exact Decoding of Phrase-Based Translation Models through Lagrangian Relaxation (@nokunoさん)
  • Tuning as Ranking (@ippei_ukaiさん)
  • Correcting Semantic Collocation Errors with L1-induced Paraphrases (@niamさん)
  • Improved Transliteration Mining Using Graph Reinforcement (@machyさん)
  • Extreme Extraction - Machine Reading in a Week (@shuyoさん)
  • Collaborative Ranking: A Case Study on Entity Linking (自分)
  • Personalized Recommendation of User Comments via Factor Models (@tsubosakaさん)
  • StructuredRelationDiscoveryusingGenerativeModels (@suzuvieさん)

個人的には@ippei_ukaiさんが発表してくださったTuning as Rankingが面白かった.この発表でようやく統計的機械翻訳がなんたるかということがわかってきた気がする (遅すぎ).何回か名前を聞いたことがあるけれど知らなかったMERTの概要を知ることができたり,feature数が増えた場合にMERTが使えなくなることなど,統計的機械翻訳の勘所が徐々についてきた気がする.

そして今日一番笑ったのは@shuyoさんの発表で出てきた "domain independent heuristics".@shuyoさんの紹介した
"Extreme Extraction - Machine Reading in a Week"では提案システムをたった50人時で構築した,と書かれているらしいけれど,中身についてはあまり詳しく書かれていないらしい.企業だからなかなか書きづらいこともあるのだろうけれど,公知にできる範囲で詳しく書いてほしいし,内容よりもシステム開発自体のノウハウについて書いてほしいなぁと思った (読んでいないので,もしかしたら書かれているのかもしれない).EMNLP的にはout of scopeだろうけれど,産業的にはとても価値が高いと思う.また部分的にでもいいからモジュールをパブリックに公開するとかすれば,企業のプレゼンス向上になるし,学術的にも産業的にも貢献できるし,いいことづくめだと思うのだけれどなぁ.

今日の読み会はいつも以上に勉強になった気がする.なんでだろうとちょっとだけ考えてみた.

  • 統計的翻訳に関する発表など,発表内容にまとまりがあった
  • 発表者のプレゼンがうまかった
  • 30分-40分という長さがちょうどよかった
  • 質疑応答が盛り上がった.貴重な知見が共有された
  • 自分に神が降臨した

今日は週頭に引いた風邪が完治していなかったので体調も悪かったし,頭も回らなかったのが少し残念.体調不良のせいで準備もほとんどできず,本当はNamed Entity Recognitionの歴史的なところをざっとサーベイ&紹介できればと思っていたのだけれど...さて,自分は自然言語処理の人間ではないけれど,だんだんとNLPの一般常識が身についてきた気がする.こういう論文読み会のときこそ普段の興味外の論文をピックアップしてそこらへんの勘所を身に着ける,ということをしてみたい.

次回はNIPS2011読み会が計画されているらしいので,ぜひぜひ参加したい.みなさまお疲れさまでした!

メモ/後で勉強する項目

  • ラグランジュ緩和について勉強
  • Kappa値が0.6 <= Kappa value <= 0.8 はsubstantial agreement
  • MERTを理解する
  • MIRAが何をやっているか調べる
  • Second Language Acquisition (SLA)
  • L1: one's native language, L2: one's second language
  • L1 transfer
  • Berkeley aligner
  • bilinear regression model