2017年1月19日木曜日

統計 回帰直線と相関係数、そして、決定係数

統計 回帰直線と相関係数、そして、決定係数


かりに次のようなn個の2次元の点で表されるデータがあるとする。
このとき、回帰直線の傾きay切片は
である。
回帰直線の方程式は
ここではそれぞれxyの平均であり、xの標準偏差、共分散で、
相関係数r
である。

この回帰直線によってxの値から予測されるyの予測値はは①を使って
と計算される。

以上を説明したところで、次の等式を証明することにする。
【証明】
②の左辺−②の右辺
上の式に
を代入すると
よって、
(証明終了)

この式を右辺第1項
は実際の「データと予測値の差」、残差の2乗を足しあわせたもの、残差平方和。要するに、予測のハズレ具合をあらわしている。
そこで、回帰直線の予測の正確さを表す次の量を定義すると
 
となる。
つまり、相関係数の2乗は回帰直線(回帰曲線)の予測の精度を表す一つの尺度と考えることができ、8種類ある決定係数の一つである。また、決定係数は寄与率とも呼ばる。


下の表は「ねこ騙し数学」の訪問者数とページビューのデータである。




この散布図と回帰直線、相関係数、決定係数は次の通り。



参考までに、横軸に訪問者数、ページビューの実際の値と回帰直線の方程式からの予測値との差、つまり、残差を縦軸にとった、残差プロットも示しておく。






0 件のコメント:

コメントを投稿