数学の復習◇分散とは？◇わかりやすく解説 - 理系サラリーマンの趣味と勉強

仕事柄統計解析をたまに行なうことがあります。

処理自体はエクセルを使えばすんでしまいますので、結果を出すだけなら簡単かと思います。

ただ、意味を理解せずにいると、何か間違いがあった場合等に気づくことができませんし、結果の考察も正しく行えないことにもなりかねません。

計算式の詳細まで記憶する必要はないと思いますが、各数値の意味合いの理解は必要かと思います。

統計学では計算式がたくさん出てきますが、計算式はわからなくても、概念として理解できるようわかりやすく解説したいと思います。

今日は統計の復習として分散について勉強してみたいと思います。

英語ではVarianceといい、Vやs^2,σ^2と表記します。

分散とは
例題

分散とは

分散とは、字面からもイメージがつくように、データのばらつきについて表します。

分散は平均から個々の数値をひいた数値の二乗の合計をデータの数で割った数の平方根です。

平均から個々の数値を引いた数値とは、個々のデータが平均からどれだけ離れているかを意味します。

個々のデータと平均との差を単純に足せれば良いのですが、平均からプラス側にはなれているものと、マイナス側に離れているものがある場合、それらが相殺されてしまいます。そこで値を二乗することで値の相殺を防ぎます。

個々のデータと平均値の差の二乗の合計が大きいということは、平均値との差が大きなデータが多いということです。

分散は母分散と標本分散、不偏分散とがあり、母分散は母集団の分散で、標本分散は母集団からサンプリングした標本の分散です。不偏分散は母集団の分散を推定したもので、上述した式の中で、サンプル数で割る部分が、サンプル数ではなく、自由度（標本数−1）で割ることになります。

実務的には、母集団全てのデータが得られていることはほぼありませんので、不偏分散を使用することが主だと思います。

以下に数式と書く部位の意味を記載します。

f:id:semiritasan:20210910211617p:plain

例題

では実際に以下の例で計算をしてみましょう。

ある母集団から標本を５つ取り出す場合で考えてみます。

例1 ばらつきが大きい場合

10 cm, 15 cm, 10 cm, 12 cm,18 cm

平均値は65cm÷5で13 cmとなります。

平均値と個々のデータの差は以下のようになります。

10 cm-13 cm=-3 cm , 15 cm-13 cm=2 cm , 10 cm-13 cm=-3 cm,

12cm-13 cm=-1 cm, 18cm-13 cm=-5 cm

次にこの結果を二乗します。

9 cm^2, 4 cm^2, 9 cm^2, 1 cm^2, 25 cm^2

これらの合計は48 cm^2

自由度（データ数−1）で割ると

48cm^2÷4＝12 cm^2となります。

例2 ばらつきが小さい場合

10 cm, 11 cm, 9 cm, 10 cm, 10 cm

平均は10 cm

個々のデータとの差は

0 cm, 1 cm, 1 cm, 0 cm, 0 cm

二乗の合計は

2 cm^2

自由度4で割ると

0.5 cm^2

見た目にも例1の方がばらつきが大きいですし、分散としても例1の方がかなり大きいことがわかりますね。

ちなみに、上記の式からもわかるように、分散は計算の過程で二乗が入っていますので、単位ももとのデータの二乗になっています。

従いまして、分散と元のデータとは単純比較できないことになります。

この点は続く標準偏差まで計算することで解消されます。

標準偏差については、また後日まとめたいと思います。

統計学がわかるファーストブック

作者:向後千春,冨永敦子
技術評論社

Amazon

にほんブログ村