都道府県別に標本を分割したデータを扱う時の注意点

シェアする

4年生の卒論が提出されて一段落したので,それを見ていた過程で気がついたことについてのメモ。母集団をいくつかの標本に分割した後でそれぞれの平均値を算出するなどの処理をするときの注意点とでもいおうか。

状況は以下のようなものである。文科省が行っている『全国学力・学習状況調査』をある学生が卒論で扱った。彼は秋田県出身の学生で,なぜ秋田県の小中学生が学力テストで上位なのかを調べようというものだった(この問い自体についてはこのエントリでは検討しない)。都道府県別の平均正答率の順位を出すとこんな感じ。

本当はもっと細かいレベルのデータがあればいいのだけど,文科省及び国立教育政策研究所は都道府県別の平均値のデータしか公表していない。確かに秋田県は上位に位置している。地域別に比較をしたいときに,このような都道府県別のデータというのは様々な分野で多く見受けられる。この都道府県別という区分をした後でそれぞれの平均値を算出し,比較検討するというやり方が適切かどうかを確かめるために,次のようなグラフを用意してみた。

縦軸は先ほどと同じ正答率である。横軸は各都道府県の,この調査を受験した公立中学の中学3年生の受験者数をとっている。このように横軸を加えてみると,都道府県によってそもそも中学3年生の数が大きく異なっていること,人数が少ないグラフの左側では正答率のばらつきが大きいのに,グラフの右側の人数が多い都道府県ほど,ばらつきが小さく,全国平均である64.5%に近い正答率となっていることがなんとなく読み取れる。要は大数の法則で,試行回数が多く(受験者数が多く)なるほど期待値(全国平均)に近づくのは当たり前なのだが,試行回数が少ないほどばらつきが大きくなるという逆の傾向があることや,あるいは,都道府県の生徒数の違いがこれほどに平均正答率に影響を与えるであろうということを直観的に理解するのは意外と難しい(この種のバイアスのことを心理学者のダニエル・カーネマンは『ファスト&スロー』の中で,少数の法則と呼んでいる)。

もっとも,福井県や秋田県の正答率が高いという結果が,統計的な偶然によって生じたと主張したいわけではない。実際これらの県は何年にもわたって好成績を維持しているので,それは何らかの教育実践や制度要因,環境要因によるところなのだろう。

ただし,これを冒頭に挙げたような都道府県順位で第何位であるという表現をするのはあまり意味がないというか,やめておいた方がいいだろう。大規模県ほど中位に偏る傾向がある。また,これらの都道府県別平均正答率を別の都道府県別の指標と組み合わせて,単相関の分析をしているような分析を見た場合は,適切な統制が取られていない可能性が高いので,結果の解釈に注意する必要がある。

標本の分割の仕方を変えれば平均正答率が変わる例として,政令指定都市20市のうち15市が自発的に学習状況調査の市の平均正答率の結果を開示していたので,その結果を紹介しよう。

主立った都道府県(上位,下位,大規模など)のグラフに重ね合わせると次のようになる。

政令指定都市は人口で100万人程度,1学年で数千人から2万人程度なので,人数の少ない県とほぼ同等の規模であり,福井県や秋田県との比較に適している。たとえば埼玉県全体では全国平均を下回っているのに対して,さいたま市に限定すると平均正答率は石川県・富山県と同水準でかなりの高水準であることがわかる。宮城県と仙台市にも同様の傾向がある。逆に大阪では大阪市の方が大阪府よりも平均が低く,これがいつ頃から生じている状況なのかはわからないがいろいろと現場の困難が推察される。

偶々卒論に付き合って分析しただけで,私自身は初等・中等教育の専門家ではないので,あまり内容に踏み込んだ解釈を述べることは控えたいが,公教育に関して言えばどちらかといえばばらつきのなさの方が価値があると思われるので,都市部であればだいたい同じような水準の教育を受けられるというのは直観的には良いことのように思える。もちろん,学校別に見ればもっとばらつきは大きくなるだろうし,その場合は大規模校と小規模校をどう比較するかといった問題が生じるのは既に述べた論理と同じ構造である。

様々な混乱が予想されるので,昨今議論の的となっている学校別の値は公表しなくても良いと思うが,テストと同時に配付している質問票調査は朝食をとっているかどうかとか,それを聞いてもどうせ正答率と疑似相関だろうというような項目が見受けられ,あまり練られていない印象を受ける。どうせなら学級の規模や教員のキャリアを聞いた上で,学校や都道府県は伏せた上で,生徒単位の個票分析ができるような設計にした方が,各種政策のエビデンス作りになるのではないかと思う(毎年財務省と文科省が概算要求でプロレスをやっているのはいい加減やめてほしい)。

参考:上田尚一(2003)『統計の誤用・活用』朝倉書店 。