こちらを読むと
- 仮説検定(t検定)において、統計学初心者がつまづくポイントを理解できます。
- 記事の所要時間は15分です。
想定読者
- t検定を学んでみたが、使い方がよく分からない方。
はじめに
結論から言うと、t検定で、統計学初心者がつまづくポイントは以下の通りです。
- 帰無仮説を立てる意味が分からない
- 帰無仮説の条件設定をどうすればよいか分からない
私も統計学初心者で、現在勉強中なのですが、t検定で何をやりたいのか、さっぱり分からなかったんですよね。
初心者の観点で、何が分かりにくいのか、この記事で解説していきたいと思います。
t検定の手順
t検定の手順をおさらいしておきましょう。
1.仮説の設定
・帰無仮説
・対立仮説
2.有意水準の設定
・優位水準とは帰無仮説を棄却する基準のこと
・一般的に5%に設定する
3.P値と優位水準を比較し、結論を出す
・P値が優位水準より小さければ、帰無仮説を”棄却”して対立仮説をとる
※P値とは:帰無仮説が正しいと仮定したときに、起きている事象の確率
帰無仮説を立てる意味が分からない
ここで、帰無仮説を立てる意味が分からない、という疑問に直面します。
なぜ事象の結論を出すために、このようなやり方を取るのでしょうか。
帰無仮説は”棄却”するためにある
帰無仮説は、”無に帰す”ための仮説であり、棄却して対立仮説を採用するためにあります。
つまり、自分は対立仮説が正しいと思っていて、それを説明するために、逆の帰無仮説を棄却(否定)したいのです。
この目的を理解しているかどうかで、t検定の理解度が大きく変わると思います。
帰無仮説は”棄却”するという目的をもって、考えるようにしてください。
帰無仮説の条件設定をどうすればよいか分からない
帰無仮説の条件設定は、1点だけ守ってください。
帰無仮説が正しいとしたとき、調べたい内容の”真の平均”が定まることです。
正確に言うと、”母集団の平均”が定まることです。
例題
例として、高校のあるクラスの数学の試験の平均点が、中間試験と期末試験で差があるかを調べたいとします。
悪い例
- 中間試験と期末試験の平均点にいくらかの差がある(差の平均は不明)
良い例
- 中間試験と期末試験の平均点の差は0(差の平均も0)
- 中間試験と期末試験の平均点の差は10点(差の平均も10)
なぜ母集団の平均値が定まる必要があるのか
t検定では、検定統計量Tを求めることで、P値を導出します。
T = \frac{サンプル平均 – 真の平均}{\frac{サンプルの標準偏差}{\sqrt{サンプルのデータ数}}}
上記の式で、ふつうは絶対に求めることができないのは、何でしょうか?
“真の平均”です。
なぜなら、サンプル平均, サンプルの標準偏差, サンプルのデータ数は、サンプルを選べば計算することができます。
しかし、“真の平均”は、サンプルから計算することはできません。
(神様しか分からないのです。)
そこで、帰無仮説を仮定するにより、平均を固定します。
上記の例だと、中間試験と期末試験の差の平均を0や、10などの点数に固定できるよう、帰無仮説を立てればよいのです。
実践
では上で出した例を使って、実践してみましょう。
サンプルとして、5人ずつ成績を選びます。
以下のようになったとしましょう。
中間試験の点数
85, 76, 74, 65, 60
期末試験の点数
65, 61, 61, 58, 64
中間試験の点数 – 期末試験の点数
-20, -15, -13, -7, 4
有意水準を5%(0.05)とします。
有意水準
0.05
T = \frac{サンプル平均 – 真の平均}{\frac{サンプルの標準偏差}{\sqrt{サンプルのデータ数}}}
こちらの式に当てはめると、
サンプル平均 = \frac{-20-15-2-7+4}{5} = 8
真の平均(帰無仮説により仮定)=0
サンプルの標準偏差=\sqrt{\frac{(-20-8)^2+(-15-8)^2+…+(4-8)^2}{5}}=9.67
サンプルのデータ数=5
より、
T = \frac{8 – 0}{\frac{9.67}{\sqrt{5}}}=2.48
t分布表により、帰無仮説は棄却されます。
※詳細には、自由度4(サンプル数-1)の有意水準0.05の値とT値を比較して判断します。
すなわち、中間試験よりも期末試験の方が平均点が小さい、という結論が出せました。
まとめ
- 帰無仮説は、棄却して対立仮説を採用するためにある
- 帰無仮説は、”母集団の平均”が定まるように立てる
t検定の目的、方法を理解することが大事なので、ぜひ理解しておきましょう。