「統計の方法論というよりも、その裏にある理論について今日はやっていくよ」
黒板に数学的な記号を書いていく。これは私の知識とこっちで使われていた書き方とを組み合わせたものだ。*1
「集めた数字に番号をつけていこう。$x_1$ 、$x_2$ 、そして $x_n$ まで、全部で $n$ 個の調査結果があったとするよ」
本当は集合論とかをさくっとやるべきなのかもしれないが、なんとなくで理解してもらっている。ここらへんの数学を厳密にやるためにはそういう才能を持った人間が必要なので後世に任せよう。下手すれば数百年かかるけれども。
「とはいえ、これだけの数字があると扱うのが大変だ。例えば収穫量を知りたいのに、各地の数字だけを並べられて言われても全体がどれだけかわからない。今回の場合、調査結果を代表したり、特徴を表すような数字をここから作り出したいわけだ」
厳密には母集団全体を対象としたものと標本を抽出したものとでは理論が変わってくるのだが、ここらへんも後世に投げる。
「一番手っ取り早いのは、全部を足して個数で割ること。ここで算学的な記号を導入するよ。こういうのがないとやっていけないからね」
$$\begin{eqnarray}\bar{x} &=& \frac{x_1 + x_2 + \cdots + x_n}{n}\\&=& \frac{1}{n}\sum_{i=1}^{n} x_i\end{eqnarray}$$
「まだやっていることはそう難しくないよ。1番目から $n$ 番目まで全部の調査結果を足して、個数で割っただけ。例えば調査結果が3、4、5、8とあればこれを全部足して20、更に個数の4で割って5になる。この4つの数字を代表する数字が5、と言えるわけだ。これを平均と呼ぶよ」
平均の概念は幾何学にあったのでそこから用語を引っ張ってきた。
「はい先生、質問です」
手を挙げる学徒。
「どうぞ」
「こういうふうにまとめるということは、それだけ情報を削ぎ落としてしまうということですよね?」
「もちろん。それに、この数字がどれぐらいの意味があるかは場合によって変化する。例えば10人の人がいて、9人が年に銀片150を、1人が銀片2000を得ているとする」
なお目安として一日につき銀片一というのはかなり手堅い仕事だと言える。日雇いとかならもうちょっと少なくなるね。
「これを足して10で割ると335。さて、年に300枚を超える銀片を手にしている人はどれぐらいいる?」
「……一人」
部屋の中が少しざわついた後、舐めてるんですかみたいな顔をして言ってくれる人がいる。うん、簡単に見えるだろうね。実際はそうじゃないんだよ。
「問題を変えよう。ある人達の年間収入の平均が200枚だった。この中に400枚以上の銀片を得ている人はいる?」
「わからない」
「その通り。つまり、平均を使うときはその背後で切り捨てられた情報に注意する必要がある。では、仮にそう大きな偏りがない調査結果だったとしよう。平均より大きいものも小さいものも同じぐらいあって、ほとんどが平均値の近くにあった。極端に大きい数字も小さい数字もない。こういうことは、それなりにありそうだというのはわかる?」
頷く皆さん。よし。
「ではこういう時、他に欲しい情報はある?平均さえあればだいたいの調査結果が推測できそう?」
空気は微妙。うーん、実際のデータがないとやりにくいか。
「収穫量とかがわかりやすいかな」
私は雑なヒストグラムを描いていく。懐かしいな。私がこの世界に持ち込んだ最初期の知識。今まであったなんとなくの印象を図の形で表現したものだ。
「左と右、平均は同じだとしても右のほうが幅が広いのがわかる?」
縦に伸びる短冊状の長方形が横に並んで描くギザギザしたベルカーブ。左は5つ、右は9つの長方形を使っている。面積は同じぐらい……のはず。右の山の頂上の高さが左のほうの半分ぐらいだからいいはずだよね?
「で、この幅、あるいは平均からの散らばりの情報もあれば実はこの形状が特定できる。さきほど言った偏りのない調査結果というのは、ある算学的に導出できる特徴を持つのだ。これはまた今度やろう。かなり複雑な算学を使うので、各自予習と復習をしっかりすること」
そう言いながら、私はさくっと数式を黒板に書いていく。
$$\begin{eqnarray}\sigma^2 &=& \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})}{n}\\&=& \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2\end{eqnarray}$$
「計算しているのはそれぞれの値が平均からどれだけ離れているかを二乗したものの平均。この式を使うと、散らばりを数字で表すことができる」
「これってなんで二乗しているんですか?平均との差が負になったら正にして、それを平均にしてはいけないのですか?」
なんでこれを一瞬見ただけでそこまで読めるんだよ。予習をちゃんとしたのかな?
「それでもいいけど、ここでわざわざこうしておくとこの後便利だから、とだけ言えばいい?」
「わかりました」
まあ私の知識も天下り的だからな。さて、久しぶりの数式の時間が始まる。