中学・高校数学から統計学入門

ホーム

第5章 推測統計(回帰分析)

5.1 一次関数

(例題1)
ソフトバンクのiPhoneのホワイトプラン(i)の料金体系は、基本料金が934円/月で、通話料は20円/30秒である(税抜。また、ソフトバンク携帯電話宛だと1時〜21時までは通話料が無料であるが、それは考えないこととする)。このプランで、ある月に合計1時間通話したときに支払わなければならない料金を求めよ(通話料の消費税は考えないこととする)。
ホワイトプラン(i) | iPhone | 料金・割引 | モバイル | ソフトバンク
http://www.softbank.jp/mobile/price_plan/iphone/white-plan/)より
通話料が20円/30秒ということは40円/分である。ある月の通話時間を$x$分、支払わなければならない料金を$y$円とおくと、$y=40x+934\cdots(1)$と表すことができる。1時間、つまり60分話したときに支払わなければ料金は、(1)に$x=60$を代入して、$2400+934=3334$円となる。


【問題1】 
ソフトバンクのiPhoneには、例題1のホワイトプラン(i)の他に、スマ放題というプランもある。これは2700円の基本使用料を支払うと、通話料が無料になるプランである。一月の通話時間が何分を超えるとホワイトプラン(i)よりもスマ放題のほうが得になるか。


5.2 線形計画法

(例題2)
あるレストランで,手持ちの材料からハンバーグとオムレツを作って利益を最大にしたいと考えている.手持ちの材料は,
  • ひき肉 3800 [g]
  • タマネギ 2100 [g]
  • ケチャップ 1200 [g]
であり,それぞれの品を作るのに必要な材料の量は,
  • ハンバーグ 1 個あたり,ひき肉 60 [g],タマネギ 20 [g],ケチャップ 20 [g]
  • オムレツ 1 個あたり, ひき肉 40 [g],タマネギ 30 [g],ケチャップ 10 [g]
であるとする.(他に必要な材料は十分な量があるものとする) 販売価格は,
  • ハンバーグ 400 [円/個]
  • オムレツ 300 [円/個]
とする.総売上を最大にするには,それぞれハンバーグとオムレツを幾つずつ作ればよいか。
http://www.fujilab.dnj.ynu.ac.jp/lecture/system2.pdfより
ハンバーグを$x$個、オムレツを$y$個作るとする。そのときの売上を$k$とすると、$k=400x+300y$である。必要な材料の量は、ひき肉が$60x+40y$、タマネギが$20x+30y$、ケチャップが$20x+10y$である。以上より、手持ちの材料という制限を考慮すると、
$\begin{cases} 60x+40y\leqq3800 \cdots(1) & \\ 20x+30y\leqq2100 \cdots(2) & \\ 20x+10y\leqq1200 \cdots(3) & \\ \end{cases} $
を満たしながら、$k=400x+300y\cdots(4)$を最大化することになる。
それぞれ$y$を$x$の式で表すと
$\begin{cases} y\leqq-\frac32x+95 \cdots(1)' & \\ y\leqq-\frac23x+70 \cdots(2)' & \\ y\leqq-2x+120 \cdots(3)' & \\ y=-\frac43x+\frac1{300}k\cdots(4)' & \\ \end{cases} $
(1'), (2'), (3')を同時に満たすのは図の斜線部分である。(4')は傾きが$-\frac43$の直線であり、その切片である$\frac1{300}k$を最大にするのは、点A$(30, 50)$を通るときである。

以上より、総売上を最大にするには、ハンバーグを30個、オムレツを50個作ればよく、そのときの総売上は2700円である。

【問題2】 
ある会社が2種類の製品A, Bを1単位作るのに必要な電力、ガス、材料はそれぞれAが2kW時、2m$^3$、A'3kg、またBが3kW時、1m$^3$、B'3kgである。また、電力は19kW時、ガスは13m$^3$、A'は18kg,B'は15kgまでしか使えないとする。1単位当たりの利益をAが7万円、Bが5万円とするとき、AとBをそれぞれ何単位作ると、利益は最大となるか。


5.3 回帰分析

(例題3)
以下はA〜Jの10人が受けたテストの結果である。国語の点数と数学の点数の回帰式を求めよ。また、Kさんの国語の点数が50点だとわかったときに、Kさんの数学の点数を推測せよ。
科目 A B C D E F G H I J 平均
国語 40 35 65 50 30 45 60 45 50 30 45
数学 20 15 90 70 5 25 100 35 85 5 45
国語の点数を$x$点、数学の点数を$y$点とおき、それが$y=ax+b$という回帰式で近似されるとする。そしてその回帰式で近似された値と実際の値との差の二乗が最小となるような$a, b$を定める。その差の二乗の和を$S$とすると、
$S=(20-(40a+b))^2+(15-(35a+b))^2+\cdots+(5-(30a+b))^2$
$=(20^2+(40a)^2+b^2-2\cdot20\cdot40a-2\cdot20\cdot{b}+2\cdot40a\cdot{b})+\cdots+(5^2+(30a)^2+b^2-2\cdot5\cdot30a-2\cdot5\cdot{b}+2\cdot30a\cdot{b})$
$=(20^2+\cdots+5^2)+(40^2a^2+\cdots+30^2a^2)+(b^2+\cdots+b^2)$
$-2(40a\cdot20+\cdots+30a\cdot5)-2(20b+\cdots+5b)+2(40ab+\cdots+30ab)$
$\frac1{10}S={{数学}^2の平均}+{{国語}^2の平均}a^2+b^2-2({{国語}\times{数学}の平均})a-2({数学の平均}b)+2({国語の平均}ab)$
$S$が最小となるのは$\frac1{10}S$が最小となるときなので、$\frac1{10}S$をそれぞれ$a, b$で偏微分する。
$ \frac{\partial \frac1{10}S}{\partial a}=2{{国語}^2の平均}a-2{{国語}\times{数学}の平均}+2{国語の平均}b$
$ \frac{\partial \frac1{10}S}{\partial b}=2b-2{数学の平均}+2{国語の平均}a$
$\frac1{10}S$は、$a, b$のそれぞれについて、下に凸の二次関数なので、最小となるのは偏微分した値が0になるときである。
$\begin{cases} 2{{国語}^2の平均}a-2{{国語}\times{数学}の平均}+2{国語の平均}b=0 & \\ 2b-2{数学の平均}+2{国語の平均}a=0 & \\ \end{cases} $
$\begin{cases} {{国語}^2の平均}a-{{国語}\times{数学}の平均}+{国語の平均}b=0 & \\ b-{数学の平均}+{国語の平均}a=0 & \\ \end{cases} $
これを解くと$a=\frac{{{国語}\times{数学}の平均}-{国語の平均}\cdot{数学の平均}}{{{国語}^2の平均}-{国語の平均}^2}=\frac{国語と数学の共分散}{国語の分散}, b={数学の平均}-a\cdot{国語の平均}$となる。 国語と数学の共分散は$367.5$、国語の分散は$125$、数学の平均は$45$、国語の平均は$45$である。
よって$a=\frac{367.5}{125}=2.94$、$b=45-2.94\cdot45=-87.3$となり、回帰式は$y=2.94x-87.3$となる。また、Kさんの国語の点数が50点だとわかったときに、Kさんの数学の点数は、$y=2.94x-87.3$に$x=50$を代入して、$147-87.3=59.7$点と推測できる。


【問題3】 
2006年〜2014年の日本プロ野球チームのデータをもとにして、得失点差と勝率、打率と得点、出塁率と得点、OPSと得点、防御率と失点の回帰式を求めよ。また、2015年のデータから、その回帰式の適合性を確認せよ。

5.4 重回帰分析

(例題4)
以下は市川駅を最寄駅とする1R(ワンルーム),1K,1DKのアパートを検索して得たデータである。面積(m$^2$),築年数(年),駅徒歩分(分)を説明変数にして,家賃を被説明変数とする重回帰式を求めよ。また、現在駅徒歩15分のところに住んでいる人が、面積と築年数は変えずに駅徒歩5分のところに引っ越そうとしたときには、いくらくらいの家賃の上昇を覚悟しなければならないかを考えよ。
NO 所在地 家賃 敷金 礼金 面積 築年数 駅徒歩分 間取 方位 構造
1 市川市真間 60,000 1 1 23.15 19 7 1K 軽量鉄骨
2 市川市新田 77,000 2 1 23.19 16 2 1K 南東 木造
3 市川市真間 60,000 1 1 32.05 19 10 1DK 木造
$\vdots$
応用情報処理 | 第11回 重回帰分析(1) | アパートの家賃
http://www.cuc.ac.jp/~nagaoka/2011/ouyou/11/rent/index.html)より
被説明変数の家賃を$y$、説明変数の面積、築年数、駅徒歩分をそれぞれ$x_1, x_2, x_3$とおき、$y=b+a_1x_1+a_2x_2+a_3x_3$という回帰式で近似されるとする。回帰分析と同様に考えて、以下の連立方程式を解く。($C_{mn}$は$m, n$の共分散を、$\bar{y}$は$y$の平均を意味する)
$\begin{cases} C_{11}a_1+C_{12}a_2+C_{13}a_3=C_{1y} & \\ C_{21}a_1+C_{22}a_2+C_{23}a_3=C_{2y} & \\ C_{31}a_1+C_{32}a_2+C_{33}a_3=C_{3y} & \\ b=\bar{y}-(a_1\bar{x_1}+a_2\bar{x_2}+a_3\bar{x_3}) & \\ \end{cases} $
これを解くと、$a_1=1050, a_2=-529, a_3=-450, b=50300$となるので、重回帰式は
$y=50300+1050x_1-529x_2-450x_3$
となる。
また、現在駅徒歩15分のところに住んでいる人が、面積と築年数は変えずに駅徒歩5分のところに引っ越そうとしたときには、$-450\times(-10)=4500$円くらいの家賃の上昇を覚悟しなければならない。
*$y=a_1x_1+a_2x_2+a_3x_3$と定数項($b$)を0とすると、以下の連立方程式を解くことになる。
$\begin{cases} \overline{x_1x_1}a_1+\overline{x_1x_2}a_2+\overline{x_1x_3}a_3=\overline{x_1y} & \\ \overline{x_2x_1}a_1+\overline{x_2x_2}a_2+\overline{x_2x_3}a_3=\overline{x_2y} & \\ \overline{x_3x_1}a_1+\overline{x_3x_2}a_2+\overline{x_3x_3}a_3=\overline{x_3y} & \\ \end{cases} $

【問題4】 
2006年〜2014年の日本プロ野球チームのデータをもとにして、単打、二塁打、三塁打、本塁打、四死球(敬遠以外)、敬遠四球、盗塁、盗塁死、その他アウト(打数$-$安打$-$三振)、三振、併殺打、犠飛、犠打を説明変数、得点を被説明変数とする回帰式を求めよ。また、2015年のデータから、その回帰式の適合性を確認せよ(特にXRと比較せよ) 。
  • プロ野球 ヌルデータ置き場 - Ver2.0 - 2015年度版(http://lcom.sakura.ne.jp/NulData/)より作成
  • XR$=$0.50$\times$単打$+$0.72$\times$二塁打$+$1.04$\times$三塁打$+$1.44$\times$本塁打$+$0.34$\times$(四球$+$死球$-$敬遠四球)$+$0.25$\times$敬遠四球$+$0.18$\times$盗塁$-$0.32$\times$盗塁死$-$0.090$\times$(打数$-$安打$-$三振)$-$0.098$\times$三振$-$0.37$\times$併殺打$+$0.37$\times$犠飛$+$0.04$\times$犠打で定義される。



作成:浅野直樹
クリエイティブ・コモンズ・ライセンス
このサイトの内容は、クレジットを表示し、それをもとに作成された新しい作品が元の作品と同様の条件で提供される限りは、改変や商用利用も含めてご自由にお使いいただけます。
記載が不正確であったことなどにより損害が生じた場合の責任は負いません。
間違いなどを発見した場合はお問い合わせからお知らせいただけるとありがたいです。