仕事柄統計解析をたまに行なうことがあります。
処理自体はエクセルを使えばすんでしまいますので、結果を出すだけなら簡単かと思います。
ただ、意味を理解せずにいると、何か間違いがあった場合等に気づくことができませんし、結果の考察も正しく行えないことにもなりかねません。
計算式の詳細まで記憶する必要はないと思いますが、各数値の意味合いの理解は必要かと思います。
統計学では計算式がたくさん出てきますが、計算式はわからなくても、概念として理解できるようわかりやすく解説したいと思います。
今日は統計の復習として分散について勉強してみたいと思います。
英語ではVarianceといい、Vやs^2,σ^2と表記します。
分散とは
分散とは、字面からもイメージがつくように、データのばらつきについて表します。
分散は平均から個々の数値をひいた数値の二乗の合計をデータの数で割った数の平方根です。
平均から個々の数値を引いた数値とは、個々のデータが平均からどれだけ離れているかを意味します。
個々のデータと平均との差を単純に足せれば良いのですが、平均からプラス側にはなれているものと、マイナス側に離れているものがある場合、それらが相殺されてしまいます。そこで値を二乗することで値の相殺を防ぎます。
個々のデータと平均値の差の二乗の合計が大きいということは、平均値との差が大きなデータが多いということです。
分散は母分散と標本分散、不偏分散とがあり、母分散は母集団の分散で、標本分散は母集団からサンプリングした標本の分散です。不偏分散は母集団の分散を推定したもので、上述した式の中で、サンプル数で割る部分が、サンプル数ではなく、自由度(標本数−1)で割ることになります。
実務的には、母集団全てのデータが得られていることはほぼありませんので、不偏分散を使用することが主だと思います。
以下に数式と書く部位の意味を記載します。
例題
では実際に以下の例で計算をしてみましょう。
ある母集団から標本を5つ取り出す場合で考えてみます。
例1 ばらつきが大きい場合
10 cm, 15 cm, 10 cm, 12 cm,18 cm
平均値は65cm÷5で13 cmとなります。
平均値と個々のデータの差は以下のようになります。
10 cm-13 cm=-3 cm , 15 cm-13 cm=2 cm , 10 cm-13 cm=-3 cm,
12cm-13 cm=-1 cm, 18cm-13 cm=-5 cm
次にこの結果を二乗します。
9 cm^2, 4 cm^2, 9 cm^2, 1 cm^2, 25 cm^2
これらの合計は48 cm^2
自由度(データ数−1)で割ると
48cm^2÷4=12 cm^2となります。
例2 ばらつきが小さい場合
10 cm, 11 cm, 9 cm, 10 cm, 10 cm
平均は10 cm
個々のデータとの差は
0 cm, 1 cm, 1 cm, 0 cm, 0 cm
二乗の合計は
2 cm^2
自由度4で割ると
0.5 cm^2
見た目にも例1の方がばらつきが大きいですし、分散としても例1の方がかなり大きいことがわかりますね。
ちなみに、上記の式からもわかるように、分散は計算の過程で二乗が入っていますので、単位ももとのデータの二乗になっています。
従いまして、分散と元のデータとは単純比較できないことになります。
この点は続く標準偏差まで計算することで解消されます。
標準偏差については、また後日まとめたいと思います。