相関係数と順位相関係数について (1): ピアソンの積率相関係数

同僚に順位相関に関する質問と相談をされて,2つの順位相関係数の計算方法と意味について深く考えるきっかけがあった.その後調べてわかったことについてメモをする.

疑問がわいては説明文を加えて,ということを繰り返していたらあまりに長くなってしまい,今晩中に全部を書ききれなくなったので,今晩はピアソンの積率相関係数についてのみ記述する.

内容に誤りがある可能性があるので,そのまま鵜呑みにしないように気を付けてください.なお,誤りのご指摘やコメントは大歓迎です.

ピアソンの積率相関係数

まず,順位相関を計算する前に一般的に使われている相関係数がどのような意味を持っているのかということについて考える.普段何も考えずに使っている相関係数は,正確にはピアソンの積率相関係数(Pearson product-moment correlation coefficient)と呼ばれるもので,2つの確率変数の類似性を見るものである.(以後面倒なので,ピアソンの相関係数と呼ぶ)

こう書くとrandom variableに対する「確率変数」という訳語が良くないと感じる.変数自体が確率を持っているような印象を与えてしまう.変数の値はあくまで事象を表現しているのだから,事象変数という訳語の方がよいのではないか...閑話休題

ピアソンの相関係数が計算しているもの

ピアソンの相関係数が何を計算しているかもう少し考えてみる.教科書 (たとえば[1]) では,「共分散を標準化したもの」という説明もあるが,共分散という概念は直感的にはわかりづらいのでここでは違った見方で相関係数を解釈してみる.

まず,相関係数の定義式をじっと眺める.

\frac{\sum_i (x_i - \bar{x})(y_i - \bar{y}}{\sqrt{\sum_i(x_i - \bar{x})^2} \sqrt{\sum_i(y_i - \bar{y})^2}}

ここで,各データと平均の差を表すベクトルを考える.

(x_1 - \bar{x}, x_2 - \bar{x}, \dots , x_N - \bar{x})
(y_1 - \bar{y}, y_2 - \bar{y}, \dots , y_N - \bar{y})

実はピアソンの相関係数はこの2つのベクトルの余弦 (cos) を表している.ベクトルが成す角度が0のとき相関係数が1,ベクトルが直交するときに0となる.

「な,なんだってー!?」という声を発してしまった方に種明かしをお伝えする.
角度\thetaを成すふたつのベクトル\mathbf{a}\mathbf{b}内積は定義より,

\mathbf{a} \cdot \mathbf{b} = \| \mathbf{a} \| \| \mathbf{b} \| \cos \theta

したがって,

\cos \theta = \frac{\mathbf{a} \cdot \mathbf{b}}{\|\mathbf{a}\| \|\mathbf{b} \|}

ここで\|\cdot\|ユークリッド(L2)ノルムを表す.


相関係数の定義式と見比べてみるとわかるように,定義式の分母はそれぞれ各データと平均の差を表すベクトルのL2ノルムを計算しているので,「各データと平均の差を表すベクトルの余弦 \cos \theta」を計算していることになる.


そう考えると相関係数の性質を直感的に理解することができる.

相関係数が1.0になるのは「全データにおいて,xとyの平均からの差 (ずれ具合) が完全に一致する」ということ.

変数に定数を足した場合には,平均も同じ値だけ増えるため差の値は変わらない.また,変数に定数をかけた場合には,ベクトルの長さが変わるだけで方向は変わらないので,余弦の値は変わらない.よって相関係数の値は変数を線形変換しても変わらず,これより相関係数の線形不変性が説明できる.

ピアソンの相関係数を利用する際の注意点

ピアソンの相関係数では散布図における直線的な関係を評価していることになる.弧を描く散布図に対しては,ピアソンの順位相関では関係をうまく捉えることができない.そのため,このような関係を正確に捉えるためには順位相関係数を用いる必要がある.

ピアソンの相関係数では,変数が正規分布することを仮定している.このような分布を仮定する方法をパラメトリック手法,順位相関係数のような特に分布を仮定しないノンパラメトリック (分布自由) 手法と呼ばれる.

というようなことが教科書には書かれているのだけれど,ピアソンの相関係数では変数に正規分布を仮定しているという部分がどうしても腑に落ちなかった.教科書ではそもそも正規分布に従うということがスルーされていたり,「正規分布を仮定しているのだから仮定しているんだ!」というような書き方が多く,ゆとりにはなかか辛い.


ウンウン考えてみた結果,以下のような説明を思いついた.

ピアソンの相関係数は,「全データにおいて,xとyの平均からの差 (ずれ具合) がどれだけ一致するか」という評価指標であることを上で述べた.

そして,これは差のスケールや平均値の値には依存しない線形不変性についても説明した.線形不変ということは,それぞれの変数を線形変換することによって各々の分布を「標準正規分布」と見なした上で平均からの差すなわち分散が一致するかどうかを評価していることになるのではないか.

したがって,ピアソンの相関係数

「全データにおいて,xとyの平均からの差 (ずれ具合) がどれだけ一致するか」

という指標.ただし,

「2つの変数が正規分布に従うとき」

ということなんだろう.きっと.なので連続値であることも必須.
離散値の場合はおとなしく順位相関を使いましょう.ということも納得.

ただし,この部分は正直理解が合っているかも自信がないので,良い説明大募集中.

つづく

..というわけで,知っている人には当たり前の内容だったかもしれないけれど,ゆとりの僕には衝撃的な内容だったので,興奮してついつい書いてしまった.

そして,はてなダイアリーを使い始めて早4年,今までtex記法が使えることを知らなかった.これも衝撃だった...

さらっと書くつもりが大分調べたり考えたりしたので相当疲れた.
今日は前座ということで明日はメインの順位相関係数と思ったことを書く予定.


チェックリスト

  • 相関係数は「全データにおいて,xとyの平均からの差 (ずれ具合) がどれだけ一致するか」を測る指標という解釈ができる
  • 相関係数は変数に対して線形不変
  • ピアソンの相関係数正規分布を仮定していること
    • 変数が連続値,正規分布でなければ順位相関 (明日紹介予定) を使う

参考文献

  • [1] 統計の教科書といえば[2]だけれど,隠れた良書だと思っている.なお,僕が持っているのは第1版なので,第2版で内容がどれだけ変わったのかはわからない.

統計解析入門 (MSライブラリ)

統計解析入門 (MSライブラリ)

  • [2] 統計の教科書といえばこれ.

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

線型代数入門 (基礎数学1)

線型代数入門 (基礎数学1)