理系サラリーマンの趣味と勉強

理系サラリーマンの趣味と勉強のブログです。

数学の復習◇分散とは?◇わかりやすく解説

仕事柄統計解析をたまに行なうことがあります。

処理自体はエクセルを使えばすんでしまいますので、結果を出すだけなら簡単かと思います。

ただ、意味を理解せずにいると、何か間違いがあった場合等に気づくことができませんし、結果の考察も正しく行えないことにもなりかねません。

計算式の詳細まで記憶する必要はないと思いますが、各数値の意味合いの理解は必要かと思います。

統計学では計算式がたくさん出てきますが、計算式はわからなくても、概念として理解できるようわかりやすく解説したいと思います。

 

今日は統計の復習として分散について勉強してみたいと思います。

英語ではVarianceといい、Vやs^2,σ^2と表記します。

 

 

分散とは

分散とは、字面からもイメージがつくように、データのばらつきについて表します。

分散は平均から個々の数値をひいた数値の二乗の合計をデータの数で割った数の平方根です。

平均から個々の数値を引いた数値とは、個々のデータが平均からどれだけ離れているかを意味します。

個々のデータと平均との差を単純に足せれば良いのですが、平均からプラス側にはなれているものと、マイナス側に離れているものがある場合、それらが相殺されてしまいます。そこで値を二乗することで値の相殺を防ぎます。

個々のデータと平均値の差の二乗の合計が大きいということは、平均値との差が大きなデータが多いということです。

 

分散は母分散と標本分散、不偏分散とがあり、母分散は母集団の分散で、標本分散は母集団からサンプリングした標本の分散です。不偏分散は母集団の分散を推定したもので、上述した式の中で、サンプル数で割る部分が、サンプル数ではなく、自由度(標本数−1)で割ることになります。

実務的には、母集団全てのデータが得られていることはほぼありませんので、不偏分散を使用することが主だと思います。

以下に数式と書く部位の意味を記載します。

f:id:semiritasan:20210910211617p:plain

例題

では実際に以下の例で計算をしてみましょう。

ある母集団から標本を5つ取り出す場合で考えてみます。

 

例1 ばらつきが大きい場合

10 cm, 15 cm, 10 cm, 12 cm,18 cm

平均値は65cm÷5で13 cmとなります。

平均値と個々のデータの差は以下のようになります。

10 cm-13 cm=-3 cm , 15 cm-13 cm=2 cm , 10 cm-13 cm=-3 cm,

12cm-13 cm=-1 cm, 18cm-13 cm=-5 cm

次にこの結果を二乗します。

9 cm^2, 4 cm^2, 9 cm^2, 1 cm^2, 25 cm^2

これらの合計は48 cm^2

自由度(データ数−1)で割ると

48cm^2÷4=12 cm^2となります。

 

例2 ばらつきが小さい場合

10 cm, 11 cm, 9 cm, 10 cm, 10 cm

平均は10 cm

個々のデータとの差は

0 cm, 1 cm, 1 cm, 0 cm, 0 cm

二乗の合計は

2 cm^2

自由度4で割ると

0.5 cm^2

見た目にも例1の方がばらつきが大きいですし、分散としても例1の方がかなり大きいことがわかりますね。

 

ちなみに、上記の式からもわかるように、分散は計算の過程で二乗が入っていますので、単位ももとのデータの二乗になっています。

従いまして、分散と元のデータとは単純比較できないことになります。

 

この点は続く標準偏差まで計算することで解消されます。

標準偏差については、また後日まとめたいと思います。

 

 

 

 

 

 

にほんブログ村 その他趣味ブログへ
にほんブログ村