統計 回帰直線と相関係数、そして、決定係数
かりに次のようなn個の2次元の点で表されるデータがあるとする。
このとき、回帰直線の傾きaとy切片は
である。
回帰直線の方程式は
ここで
はそれぞれx、yの平均であり、
はxの標準偏差、共分散で、
相関係数rは
である。
この回帰直線によってxの値から予測されるyの予測値は
は①を使って
と計算される。
以上を説明したところで、次の等式を証明することにする。
【証明】
②の左辺−②の右辺
上の式に
を代入すると
よって、
(証明終了)
この式を右辺第1項
は実際の「データと予測値の差」、残差の2乗を足しあわせたもの、残差平方和。要するに、予測のハズレ具合をあらわしている。
そこで、回帰直線の予測の正確さを表す次の量を定義すると
となる。
つまり、相関係数の2乗は回帰直線(回帰曲線)の予測の精度を表す一つの尺度と考えることができ、8種類ある決定係数R²の一つである。また、決定係数は寄与率とも呼ばる。
下の表は「ねこ騙し数学」の訪問者数とページビューのデータである。
この散布図と回帰直線、相関係数、決定係数R²は次の通り。
参考までに、横軸に訪問者数、ページビューの実際の値と回帰直線の方程式からの予測値との差、つまり、残差を縦軸にとった、残差プロットも示しておく。
0 件のコメント:
コメントを投稿