統計で母平均の信頼区間をt検定する問題の大雑把な理解の仕方

大学の統計学の授業で「母平均の95%信頼区間を求めなさい」というような問題はよく取り上げられる例題ですね。
統計は具体的な場合が想像できれば理解しやすいけど、大学の講義を受けただけではなかなか難しいものがあります。
t検定の意味が分からないという友達がいたので、自己流の解釈で説明したら予想以上に好評だったのでエントリとしてまとめておきます。
Web上にもいろいろ解説がありますが、どれも自分好みの直感的な感じじゃないです。やっぱり、こういうエントリを書く人ってのは数学的に厳密じゃないと気がすまないのでしょうか。
注意事項としては、あくまでも直感的に分かるようにやっているので本質的には間違っている可能性もある、ということです。

ちょっと長い前置き

そもそも、この「母平均の95%信頼区間を求めなさい」ってのは何を言っているのか、という話をまずします。ちょっと長いので、分かっている人は飛ばしてください。
さて、例えばこんな問題を考えてみます

日本全国の男子高校生の平均身長を求めたいが、全員の身長を実際に測ることができない。
そこで、男子高校生を100人ランダムに選んで、その集団の身長の情報からなんとかして想像したい。

ではどうやって100人の身長から全国平均(=母平均)を想像すればいいのでしょうか?
まず思い浮かぶのは100人の平均身長を求めてそれを全国平均とする方法ですが、100人の選び方が変われば平均も変わるので、この値から「全国平均はこれだ!」と断言することはできそうにありません。
ですが仮に100人の平均身長が171cmだったとして、「全国平均は171cmだ!」とは言えなくても「全国平均はだいたい171cmくらいだと思うなぁ」なら言っても嘘にはならない気がしませんか?
こんな感じで「□□□cmから○○○cmの間に全国平均はあると思うなぁ」と主張したいわけです。この時どれくらい自信を持って言えるかが重要です。
仮に、「万が一間違えたら命はないと思え!」みたいに脅迫されてたら「100cmから200cmの間に全国平均はあると思う」と答えるかも知れません。何せ命がかかっているので、100%大丈夫なように答えたいでしょう。
このように、どれくらい自分の意見に自信を持てるかが重要になってくるのです。統計の世界ではこの値としてよく「95%の確率で大丈夫と言える自信」と「99%の確率で大丈夫と言える自信」が用いられます。
つまり、「母平均の95%信頼区間を求めなさい」というのは「母平均が95%の確率で□□□から○○○の間にあると言えるような、□□□と○○○を求めなさい」と言っているわけです。
ちょっと冗長過ぎましたかね。

ここからが本題

n個の標本を得たとします。上記の例で言うならn=100です。それぞれの値をx_1,...,x_nとします。上記の例で言うなら例えばx_1は1人目の男子高校生の身長を表し、例えばx_1=169.3(cm)とかです。
この時

標本平均
m=\frac{1}{n}\sum_{i=1}^{n}x_i
標本分散
s^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-m)^2

標本平均は簡単ですね。いわゆる平均です。今回の例ならサンプルとして集められた100人の高校生の身長です。
では標本分散とは何でしょうか。標本とつくからには100人の高校生に関する何かしらの値だと分かります。
標本分散の式で一番大事なのは (x-m)^2 の部分です。mは標本平均、つまり100人の平均身長です。ここでは仮にm=171だったとしましょう。
この標本分散の式を日本語にするなら「100人の高校生に対して、各自の身長と、平均身長の差の二乗の平均が標本分散」となります。
1人目の身長が166cmなら  (166 - 171)^2 = (-5)^2 = 25、2人目が171cmなら  (171-171)^2=0 で、このようにして計算した値を全員分足しあわせた後、その人数で割るので、平均になりますね。
ここで、何故わざわざ差の二乗をしているかと言うと、二乗すれば必ず正数になるからです。もし正数にしなかったら、166cmの人と176cmの人の値を足したら互いに相殺して  -5 + 5 = 0 となってしまいます。
平均値からどれくらい離れているか(皆の身長が分散しているか)を知りたいわけです。
極端な場合、100人全員が171cmジャストだったら、標本分散は0になりますね?逆に、50人が100cm、50人が242cmでも平均は171cmになりますが、標本分散はべらぼうに大きくなります。
結局何が言いたいかと言うと

標本分散が大きい=サンプルの高校生の身長がばらばら=サンプル取り直したら標本平均大きく変わりそうだなー=この標本平均を使って母平均を推定する自信ないなー
標本分散が小さい=サンプルの高校生の身長が似たりよったり=サンプル取り直しても標本平均が変わらなさそう=この標本平均を使って母平均を推定することできそう

ということです。
さて
ここでは母平均と母分散を推定したいのですが標本分散はちょっと母分散より小さくなることが知られており*1、標本分散を用いて母分散を推定するのは得策とは言えません。
そこで次の

不偏分散
u^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-m)^2

を考えます。とりあえず、「標本分散がちょっと小さいなら、ちょっと大きくしたろ」と統計学者が思ったのだと理解しときましょう。実際、n=100だったとしたら
u^2=\frac{n}{n-1}s^2=\frac{100}{99}s^2
なので、不偏分散の方がちょっとだけ(100/99倍)大きいですね。この不偏分散は母分散を推定するのに使えます。
それと、説明のために

母平均
\mu
母分散
\sigma^2 #使わないけどとりあえず置いておく

さて、ここまでに出てきた記号を考えると、測定結果から値が本当に分かっているものと、分かっていないものに区別できます。

値が分かっているもの 分かってないもの
n,x_i,m,s^2,u^2 \mu,\sigma^2

値が分からないμを値が分かっている組を使って推定したい訳ですが、どうすればいいのでしょうか。

信頼区間

最初に書いたようにμ=△△△とズバッと決めることはできないので、□□□〜○○○にあるのではないか、と表します。この時の範囲のことを信頼区間と呼び、次のように表されます

信頼区間=標本平均±t×標本標準誤差==m\pm t\time\sqrt{\frac{u^2}{n}}

この式を言葉に直すと

母平均は標本平均を中心として、t×標本標準誤差の範囲にあると思われる

という意味です。95%の自信とかはtという値が含んでいます

標本標準誤差の意味

標本平均mは測定の結果得られたものなので、測り直したら違う値になるはずです。
つまりn個の標本抽出を何回も何回もやれば、mも毎回異なる値をとるはずなので、この時、標本平均の平均とか、標本平均の分散を考えることができるはずです。
逆に、何回標本抽出を繰り返してもmの値が同じになるとしたら、ぶっちゃけ、「母平均μはmだ」と断言して良いかも知れないわけです。
mの値が微妙にブレるからこそ、「mを中心としてこれくらいの範囲にある」みたいな区間推定を行うのですが、じゃあ、どれくらいの範囲を持たせればいいのでしょうか。
直感的にはmの値の信頼度が高いほど、範囲は狭くても自信が持てそうですし、逆にmの信頼度が低ければ、mを中心とした大きな範囲を指定しないと自信を持てなさそうです。
じゃあ、仮にn=10の時のmとn=1000の時のmを比べたら、どっちの方がよりμに近いとかといえば、直感的にn=1000の時ですよね?
高校生の身長の例をあげるなら、10人の平均身長より1000人の平均身長の方が全国平均を正確に表していそうだ、という気分です。
実際はn回の測定を1回しかやらないんだけど、nが大きいほど得られたmの信頼性は高い、つまり母平均に近いと期待できるということです。
一発取りしたものが、平均に近いということは、その集団の分散が小さい、と考えられます。何故なら、分散が小さい=平均に近い値がでやすい、分散が大きい=平均から離れた値がでやすい、だからです。
なので、標本平均の分散を\frac{u^2}{n}と置いてみます。
直感的には、mは不偏分散u^2に従う(と推定される)母集団から取ってきた標本の平均なのだから、標本平均の分散はu^2に比例し、先ほどの話からnに反比例するはず、といった感じです。
ここで母分散\sigma^2を使わず不偏分散u^2を使っているのは、母分散が実際には分からないからです。
(実際に標本平均の分散が\frac{u^2}{n}と等しくなることは証明されているらしいですhttp://dsl4.eee.u-ryukyu.ac.jp/DOCS/error/node20.html
そして、この標本平均の分散の平方根をとったものが標本標準誤差となります。なぜ平方根を取るのかというと、上の方で標本分散の説明をするときに必ず正数になるように2乗すると書きましたが、分散が実際の標本の値を2乗する操作をしたあとの数字なので、それをもとの尺度に戻しているわけです。

標本標準誤差=\sqrt{\frac{u^2}{n}}

tの意味

95%信頼区間におけるtは、直感的には「一般的な場合の信頼区間の幅」って感じです。

(一般的な場合の幅)×(今回の標本がどれくらい特殊か)= t ×標本標準誤差=特殊な場合の幅

と理解しときましょう。
t値は

  • 95%より99%の方が大きくなる
  • 自由度(n-1と等しい)が大きいほど小さくなる

という性質を持っています。
直感的には、

  • 95%より99%の方が間違えた時のリスクが大きいので、範囲を大きくとって安全策にでる。
  • nが大きいほどmの信頼性が高いので、範囲が小さくても大丈夫

って感じです。
それと、t値を求める時には自由度がn-1であることに注意が必要です。
なんで自由度をn-1にするのかと言うと...うわなにをするやめくぁwせdrftgyふじこlp*2

最後に

確率とか統計は一回イメージをつかむとかなりスムーズに理解できるようになります。
今回の僕のエントリを読んで(超長文ですが)少しでも直感的なイメージを持てた人が現れてくれたら幸いです。

*1:直感的にはnが超大きい(ようするに母集団を全部調べた場合に近い)と平均から離れた変てこりんな値も出てくるけど、nが小さいと全部がそれなりの値を取るから分散が小さくなりやすい、と理解しときましょう。正確なところはよく知らないです。

*2:よくある説明は、平均を求めるのに自由度を一つ消費しているから、みたいなのですが僕にもよく分からないので、もうここは単純に覚えるのが手っ取り早いのではないかと...