【DS検定対策7】標本誤差と標準誤差の違いをやさしく整理

データサイエンス

「標本」と「標準」って、言葉が似ていてややこしいですよね。どっちがどっち?になりがちですが、意味は全く違うのでしっかりと区別できるようにイメージ化しています。日本語は似すぎなので、英語にしてみましょう。

  • 標本 = sample(実データのサンプル)
  • 標準 = standard(基準・ものさし)

1. 標本誤差(Sampling Error)

「ある(1回の)サンプルを取ったときに、本当の値とどれくらいズレるか」

求め方: 標本誤差 = サンプル平均 x̄ −母平均  μ
$$\text{標本誤差} = \bar{x} – \mu$$

 サンプル平均 と 母平均の「差」をとることで、本当の平均(母平均)と、どのくらいズレているかを測ったものです。
実際には μ(母平均)はわからないことが多いので、標本誤差は「概念」として使われるそうです。

具体例: 
クラス全員の平均点が 80 点(母平均)で、10人だけ選んで平均点を計算したら 76 点だった場合: 標本誤差 = 76 − 80 = −4
   → サンプル平均は母平均より 4 点低かった、というズレです。

👉 標本誤差は「一度のズレ」を表します。


2. 標準誤差(Standard Error, SE)

「サンプルを何度も取り直したときに、平均値がどのくらいブレるか」

背景:サンプルを何度も取り直すと、平均値は毎回少しずつ違います。
この「ばらつきの大きさ」を測るのが標準誤差です。

ブレにはプラス方向とマイナス方向があるので、まず2乗して(マイナスを消す)、
そのあと √(平方根)で元に戻す、という統計の基本技が使われています。

求め方:

  • 母分散 σ² が既知なら:標準誤差 = σ / √n
    $$\text{SE} = \frac{\sigma}{\sqrt{n}}$$
     →単純にサンプル数でわっているってこと。
      ただし普通は母分散がわからないことが多いらしい。
  • 母分散が未知なら、標本標準偏差 s を使って:標準誤差 ≒ s / √n
    $$\text{SE} \approx \frac{s}{\sqrt{n}}$$
     →標本標準偏差というは、サンプルから計算した標準偏差のこと

標準誤差は「サンプル平均のブレ」を測るものですが、そのブレは元のデータのばらつき(母分散)に左右されます。(全体の分散(ブレ)なのでサンプルとっても似たような感じになるってことですね)

  • 元のデータがバラバラなら、サンプル平均もブレやすい
  • 元のデータがまとまっていれば、サンプル平均も安定しやすい

つまり、平均のブレを測るには、まず元のばらつき(母分散)を知る必要があるんです。
しかし母分散がわからないことが多いので、サンプル分散(s²)を使って近似する(母分散の推定値に使う)ってことです。

  • 理想:母分散 σ² がわかっている → σ / √n
  • 現実:母分散は不明 → 標本標準偏差 s を使って:標準誤差 ≒ s / √n

なぜ「√n」で割るのか?
これは「サンプル数が多いほど平均は安定する」ことを数式で表すためです。

  • サンプル数 n が増えると、平均値のブレは小さくなる→母数に近づくので当然ですね。
  • ばらつきの広がり(σ)はマイナスとプラスのブレの合計を計算するために2乗しているので
    サンプル数 nの平方根で割ることで、ちょうどよく調整しているのです。

具体例:
標本標準偏差 s = 12、サンプル数 n = 36 のとき:
$$\text{SE} \approx \frac{12}{\sqrt{36}} = \frac{12}{6} = 2$$
→ この場合、サンプル平均のブレの大きさは「2」くらいと見積もられます。

サンプル分散は関係ないのか?
関係あります。母分散がわからないときは、サンプル分散(s²)を使って近似します。

  • 理想:母分散 σ² がわかっている → σ / √n
  • 現実:母分散は不明 → 標本標準偏差 s を使って:標準誤差 ≒ s / √n

つまり、サンプルで得た分散は「母分散の推定値」として使われるんです。


3. 言葉の整理(ごっちゃにならないために)

用語意味イメージ
標本(sample)サンプルデータ一度の調査で集めたデータ
標準(standard)基準・ものさし広がりのものさし
標本誤差サンプル平均と母平均の「差」一度のサンプルで出るズレ
標準誤差サンプル平均の「ばらつきの大きさ」サンプルを繰り返したときの広がり

コメント