第3回東京自然言語処理勉強会に参加しました

第1回から参加している東京自然言語処理勉強会に参加しました.毎回勉強になりますが,今回は特にとても勉強になったという実感があります (単に自分が興味あるトークだらけだったというのが大きい?).本日も13:00-20:00の長丁場.参加者の皆様おつかれさまでした.

トークについて簡単なメモ

FSNLPの3章を読む (@hitoshi_niさん)

とんこつカレーラーメンの存在を知る.FSNLP3章の解説.ここらへんの範囲は自分でも勉強しようと思ったことがあるが,いつも眠くなって落ちてしまうところを一気に理解することができた.一気に全体を眺めることができてとても理解が進んだ.

本章のポイント

  • 品詞,形態,語用論
  • 句構造
  • 意味論

うきうき☆Compressed Suffix Array (@echizen_tmさん)

CSAの解説としては,これ以上ないほど丁寧でわかりやすい解説.怪しかった部分などがきちんと理解できた (気がする).

  • CSAの元論文は,もともとインデクス部分の圧縮のみを提案
  • 定兼先生が「self-indexingもできるんじゃね?」ということを提案

入社一年目のときにCの練習がてらにSuffix ArrayやCompressed Suffix Arrayもどきを実装したり,圧縮全文索引あたりの勉強をしたことがあったのでドストライクな内容.タイトルどおり,うきうき☆しながら聞くことができた.

ただ,やはりCSAはかなり遅くなる印象.SA然りCSA然りbinary searchしまくりなので,キャッシュに優しくない.そこらへんを考慮して高速化をするような方法はないのかしら.アルゴリズム屋さんは,あまりアーキテクチャや実測値における高速化に興味がないのかなぁ.

形態素解析入門 (@nokunoさん)

形態素解析についての解説.

  • 長単位,短単位の形態素解析をするためには,辞書に手を加えればよいのか?
  • mecabはめちゃくちゃ速い,らしい.

統計的係り受け解析入門 (@unnonounoさん)

日本語資料の少ない係り受け解析の非常にわかりやすいチュートリアル係り受け解析が解く問題.手法としてどのようなものがあるのか,といったところの入門知識を得ることができた.

係り受け解析についてどのような手法があるのか俯瞰することができた

  • 係り受け解析の2大派閥
    • transition-based (局所最適型)
      • Shift-Reduce
      • 大域素性が使える
    • graph-based (大域最適型)
      • MST, Eisner
      • ただし,大域素性が使えない

Shift-ReduceとEisner法について詳しく解説あり.係り受け木を三角と台形で表現する業界標準を教えてもらった.

最後に話題に上がった線形整数計画法の話が興味深い.いろんな分野で流行っているとのこと.

EMNLPの論文を読む (@shuyoさん)

10本の論文を紹介して頂いた.グラフィカルモデルが出てくる論文は,完全に置いていかれました.個人的には"Negative training data can be harmful to text classification" がとても気になった.@shuyoさん的にはあまり好きではなかったらしく,ささっと流されてしまったので後でざっと読んでみた.

どうやらtraining dataとtest dataにおいて,negative exampleの分布が異なる場合,訓練データでつかったexampleがあまり役に立たない (もしくは,悪さをする) というような問題がある.それを解決するために,訓練データ中のnegative exampleを使わず,positive example と unlabeled dataを用いて学習を行うPU learningというアプローチがある.

本論文はPU learningをtext classificationに適用しましたよ,というもの.仮にtrainingとtestにおいてnegative exampleがidenticalな分布だとしても,提案手法はベースラインと同程度の性能を示すということも書かれている.実験自体は非常にオーソドックスなReuters21578 & bag of words.

最後に極大部分文字列の実装の話があったけれど,極大部分文字列が何かということを理解できず置いて行かれてしまいました.

まとめ

毎回非常に勉強になるのだけれど,今回はまるで学会のチュートリアルを聞いているかのごとく,どれもこれも大変勉強になりました.

質疑も心なしか回を追うごとにレベルが高くなっている気がするし,鋭い質問やコメントが飛び交うことも.後日資料を見るだけでは得られない知見がいろいろと溜まったと思います.2日ともECナビで過ごす休日でしたが,参加して本当によかったと思います.

最後に会場を提供してくださったECナビさま,幹事の@nokunoさん,発表者のみなさま,ありがとうございました.