統計 相関係数のお話
例えば、下の表に示すXとYのデータがあるとする。
このデータをもとに下の表を作り、平均、(共)分散、標準偏差を求める。
なお、上の表でE(x)、E(y)は、xとyの平均(期待値)であり、
である。
したがって、相関係数は
あるいは、共分散とx、yの標準偏差を用いて
である。
以上の結果から、
回帰直線の傾きaは
y切片bは
したがって、回帰直線の方程式は
である。
したがって、このxとyの間には正の相関がある。
もっともらしく聞こえるだろう。
しかし、実際は、この(x,y)の値はコンピュータ上で乱数を発生させたもので、このxとyには何の関係もない(無相関)。
この例のように、xとyは0〜10の値をとるまったくランダムな変数にもかかわらず、データの数が少ない場合、相関係数を計算すると相関があるかな結果になることがある。
なお、相関係数によって相関の強さは、たとえば、次のように分類される。
相関係数rの絶対値
|
相関の強さ
|
0〜0.2
|
相関がない
|
0.2〜0.4
|
弱い相関がある
|
0.4〜0.7
|
相関がある
|
0.7〜0.9
|
強い相関がある
|
0.9〜1
|
完全な相関がある
|
本によって分類の仕方が異なるので、上記の分類は、あくまで参考にして欲しい。
次にデータの数を10組から200組に増やすと(上の例は、最初の10組を選んだもの)、散布図は右のようになる。
この結果を見ると、xとyの間に相関がない、無相関であることがわかると思う。
母集団の相関係数ρ=0のときでも、(標本の)相関係数rを計算をすると、r=0.5程度の値が出ることがあるので、相関係数rを計算しただけで相関の有無を判断することは危険という話でした。
0 件のコメント:
コメントを投稿