過去 1 週間のページビュー

2011年5月12日木曜日

自由度調整済み決定係数についてアウトプット

なぜ自由度調整済み決定係数でないとだめなのか?
まず、決定係数とは、総変動のうち回帰式で説明できる変動の割合です。
ちなみに総変動は(予測値による変動)+(残差による変動)
変動とはその値からの散らばり具合。


で、決定係数を計算すると、0から1までの値が出てきます。
厳密には0とか1は考えなくていいのですが、とりあえず書きやすいのでそう書きます。

で、回帰は変数の数+1個のデータの組があればできるので、変数の数をp、データの組の数をnとします。
しかし、少しまずいことが起こるのです。

例えばp=2として、n=3とします。つまり、これはn=p+1という状況なのですが、

このとき従属変数のyも含めて、変数は2+1=3つ、データの組は3組つまり、これは回帰をしようと思っているのに、
3元の連立方程式とすれば、決まってしまうのです。ここで決定係数は上のようなものであったので、1となります。
回帰しようと思っているのに、これは違います。

これは何を意味しているかというと、例えばもう少し数字を大きくして、n=30を考えましょう。
学校のクラスと考えればよいです。

このとき、変数の数を例えば5とかにします。クラスの勉強の出来をそれで回帰するとしましょう。
このとき、ある数字が決定係数としてかえってきます。
で、決定係数が少し低いなと思って、変数を増やしてみます。
すると、残差が減るので、確実に決定係数が上がります。

そして、数字が上がればよいということをいいことにどんどん増やします。
そして、変数を29個にします。
すると、n=p+1となり、先ほどと同じ状況になります。
Rも1となります。

こういう状況では変数を増やすという行為は数字を大きくするという意味以上の意味はなさない。

このとき決定係数は1-(残差平方和÷総平方和)となっているので、分散に対して普遍分散を考えたときのように、
残差平方和n-p-1で割り、総平方和はn-1で割ったような数値とすれば自由度が調整される。
ここで、データの数は変わらないので、
動く数値は分子のpであるが、pは分子の中では分母にあり、変数を追加すれば平方和は小さくなる.
分母も変数を追加すれば小さくなる.
ので、これを大きくするためには、関係のありそうな(残差を大きく減らしてくれそうな)変数のみを入れることが望まれる。
そして、自由度調整済み決定係数とは、決定係数に自由度を大きくすることでトレードオフの関係を作るという意味で、
自然に導かれる数値であります。

実際には、自由度調整済み決定係数は、1-(自由度調整済み残差平方和÷自由度調整済み総平方和)となるので、それぞれ分子をn-p-1、分母をn-1で割ったものとなる。
これを解釈すると、データの数は変わらないとするならば、モデル選択中に変更できるのは、残差平方和のほうである。
つまり、変数を増やせば、残差は減るが、自由度が大きくなり、全体としてバランスをとることが求められます。
つまり、変数はできるだけ少なく、残差を大きく減らしてくれる変数を入れるべきだという事になります。

何も見ずにでの今の理解です。あってるのかなー。

0 件のコメント:

コメントを投稿