中学・高校数学から統計学入門

ホーム

第4章 記述統計

4.1 グラフ

(例題1)
以下のグラフをもとにして、団塊の世代に属するあるコメンテーターが「少年による凶悪犯罪が近年急増している。私たちと違って今どきの子どもはキレやすい。」と言っている。これは正しいか。

  • 平成26年版 犯罪白書(http://hakusyo1.moj.go.jp/jp/61/nfm/mokuji.html)「資料3-3 少年による刑法犯 検挙人員(罪名別)」より作成。
  • 「凶悪犯罪」とは殺人、強盗、強姦、放火の合計である。
正しくない。上のグラフは一部だけを切り取っている。1946年〜2013年までの図は次の通りである。

なお、人口比についても同様の傾向である。


【問題1】 
以下のグラフをもとにして、ある政治評論家が「日本の防衛関係費は2000年から2012年にかけて急速に縮小していたが、第二次安倍内閣が発足した2012年からはすごい勢いで増えている。」と言っている。これは正しいか。



4.2 代表値

(例題2)
以下の度数分布表とヒストグラムを見て、平均値、中央値、最頻値のうちのどれがデータを代表する値としてふさわしいか答えよ。
階級 度数(世帯数)
0〜100 3328446
100〜200 7009909
200〜300 7211633
300〜400 6757754
400〜500 5093531
500〜600 4286635
600〜700 3479739
700〜800 3227584
800〜900 2521550
900〜1000 1865947
1000〜1100 1412068
1100〜1200 1109482
1200〜1300 756465
1300〜1400 504310
1400〜1500 353017
1500〜1600 252155
1600〜1700 252155
1700〜1800 151293
1800〜1900 201724
1900〜2000 100862
2000〜 605172
国内での分布は問わず一国全体を大まかに捉えるのなら平均値が適していると考えられる。ちょうど真ん中の順位の世帯の所得を知りたければ中央値が適している。どの区分の所得の世帯が最も多いかという観点からは最頻値が適している。

【問題2】 
以下の2014年プロ野球選手年俸の生データ(一部のみ抜粋)から度数分布表とヒストグラムを作成して、平均値、中央値、最頻値を求め、そのうちのどれがデータを代表する値としてふさわしいか答えよ。

# 背番号 選手 年俸(推定) チーム ポジション 投打 生年月日
1 10 阿部 慎之助 6億円 巨人 内野手 右投げ 左打ち 1979年 3月 20日
2 18 杉内 俊哉 5億円 巨人 投手 左投げ 左打ち 1980年 10月 30日
3 20 ケビン・ユーキリス 4億円 楽天 内野手 右投げ 右打ち 1979年 3月 15日
$\vdots$


(例題3)
30年後に1万ドルが償還される割引債(ゼロクーポン債)の米国債が2000ドルで売りだされている。この米国債の1年あたりの平均利率を求めよ。
$10000\div2000=5$より、この米国債を買うと30年で5倍(500%)になる。つまり、400%増加する。
$400\div30\fallingdotseq13.3$であるが、これは1年あたりの平均利率ではない(単利で考えたときの平均利回りだとは言える)。
正しくは、$(x)^{30}=5$を解いて$x\fallingdotseq1.055$より、5.5%である。

【問題3】 
ニューヨークのマンハッタン島は、1626年に、オランダ人入植者がアメリカ先住民から24ドルで買ったと言われている。この価格について、AさんとBさんは次のように考えた。どちらの考え方が正しいか。
  1. 1626年から2015年現在まで389年経っている。$5%\times389=1945%$なので、当時の24ドルが現在までに1945%増加して、$24+24\times19.45=490.8$ドルになると考えられる。マンハッタン島が$490.8$ドルというのは安いと考えられる。
  2. 1626年から2015年現在まで389年経っている。$(1.05)^{389}\fallingdotseq174838607$なので、当時の24ドルが現在までに$24\times174838607=4196126568$ドルになると考えられる。マンハッタン島が約42億ドルというのはそれなりに妥当な価格であると考えられる。


4.3 分散と標準偏差

(例題4)
以下はA〜Jの10人が受けたテストの結果である。国語の点数の分散と標準偏差を求めよ。
科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45

科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45
国語$-$平均 $-5$ $-10$ 20 5 $-15$ 0 15 0 5 $-15$ 0
(国語$-$平均)$^2$ $25$ $100$ 400 25 $225$ 0 225 0 25 $225$ 0
以上より、
分散$=\frac{25+100+400+25+225+0+225+0+25+225}{10}=125$
標準偏差$=\sqrt{125}\fallingdotseq11.2$

【問題4】 
以下はA〜Jの10人が受けたテストの結果である。数学の点数の分散と標準偏差を求めよ。
科目 A B C D E F G H I J 平均
数学 20 15 90 70 5 25 100 35 85 5 45



(例題5)
平成26年センター試験の国語で200点満点を取ったときの偏差値を求めよ。ただし、同試験の平均点は98.67、標準偏差は26.83である。
http://www.dnc.ac.jp/sp/data/shiken_jouhou/h26/index.htmlより
偏差値は、平均点が50、$\pm$1標準偏差で$\pm$10になるように作られた指標である。よって求める偏差値は
$50+\frac{200-98.67}{26.83}\times10\fallingdotseq87.8$

なお、得点の分布は
のようなものかもしれないし、
のようなものかもしれない。

【問題5】 
平成26年センター試験の数学2Bで100点満点を取ったときの偏差値を求めよ。ただし、同試験の平均点は53.94、標準偏差は23.02である。


4.4 相関関係

(例題6)
以下はA〜Jの10人が受けたテストの結果である。国語の点数と数学の点数の相関係数を求めよ。
科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45
数学 20 15 90 70 5 25 100 35 85 5 45

科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45
数学 20 15 90 70 5 25 100 35 85 5 45
国語$-$平均 $-5$ $-10$ 20 5 $-15$ 0 15 0 5 $-15$ 0
数学$-$平均 $-25$ $-30$ 45 25 $-40$ $-20$ 55 $-10$ 40 $-40$ 0


共分散$=\frac{(-5)\cdot(-25)+(-10)\cdot(-30)+20\cdot45+5\cdot25+(-15)\cdot(-40)+0\cdot(-20)+15\cdot55+0\cdot(-10)+5\cdot40+(-15)\cdot(-40)}{10}=367.5$

相関係数$=\frac{共分散}{{国語の標準偏差}\cdot{数学の標準偏差}}=\frac{367.5}{11.2\cdot35.4}\fallingdotseq0.93$


【問題6】 
以下はA〜Jの10人が受けたテストの結果とある1500語の文章を読むのにかかった時間である。国語の点数とある1500語の文章を読むのにかかった時間との相関係数を求めよ。
科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45
時間 100 120 60 70 130 115 80 95 90 110 97



【問題7】 
以下の2006年〜2014年の日本プロ野球チームのデータをもとにして、得失点差と勝率、打率と得点、出塁率と得点、OPSと得点、防御率と失点の相関係数を求めよ。
年度 チーム 打率 出塁率 OPS 防御率 得点 失点
2006 D 0.270 0.333 0.742 3.10 669 496 87 54
2006 T 0.267 0.328 0.725 3.13 597 508 84 58
$\vdots$
2014 L 0.248 0.329 0.712 3.77 574 600 63 77
2014 E 0.255 0.327 0.684 3.97 549 604 64 80

* OPS$={出塁率}+{長打率}$である。
長打率$=\frac{{単打}\times1+{二塁打}\times2+{三塁打}\times3+{本塁打}\times4}{打数}$である。


(例題7)
ある店の傘立てに差してある傘の本数とその日のその場所での雨量との相関係数を計算すると0.9であった。このことから、「傘立てに傘を多く差すと雨が多く降る」と言ってよいか。
よくない。相関関係と因果関係は異なる。ここでは逆に、雨が多く降ると傘立てに差される傘の本数が多くなるという因果関係が想定される。

【問題8】 
病院の規模とその病院患者の死亡率との相関係数を計算すると0.8であった。このことから、「規模の大きな病院ほど治療が悪くて死亡率が高くなる」と言ってよいか。


(例題8)
ある国において、アイスクリームの売上と水死者数との相関係数を計算すると0.8であった。このことから、「アイスクリームが水死を引き起こす」と言ってよいか。
よくない。相関関係と因果関係は異なる。ここでは気温の高さという第三の要因が、アイスクリームの売上と水死者数の両方を増加させていると考えられる。

【問題9】 
海賊の数と世界の平均気温との相関係数を計算すると$-0.8$であった。このことから「海賊が地球温暖化を防いでいた(海賊が減ったせいで地球温暖化になった)」と言ってよいか。



作成:浅野直樹
クリエイティブ・コモンズ・ライセンス
このサイトの内容は、クレジットを表示し、それをもとに作成された新しい作品が元の作品と同様の条件で提供される限りは、改変や商用利用も含めてご自由にお使いいただけます。
記載が不正確であったことなどにより損害が生じた場合の責任は負いません。
間違いなどを発見した場合はお問い合わせからお知らせいただけるとありがたいです。