弁当の売上分析、売上予測をテーマに書かれた統計本。
銀座のデータサイエンティストというブログでも紹介されています。
物語ベースでの説明になっているため、初心者でも分かりやすく書かれていた。
仮説検定についても分かりやすく書いていたので、
少し理解が深まったように感じた。
【参考になったこと】
・デ
...続きを読むータ分析でみるべきは、平均からのバラツキ。
・帰無仮説とは「係数を0と考えること」で、
係数が0でないことを対立仮説と呼ぶ。
帰無仮説の基で統計量(t値)が計算される確率を求め、
その確率が0.05より小さい場合は、帰無仮説を棄却し、
対立仮説を採択する。
つまり、今回の係数はまずまず信頼出来るという意味。
・回帰分析のときは、予測値と実測値のあてはめの良し悪しを
見る必要があり、このときに使うのが「決定係数」
1に近ければあてはめが良い。
・重回帰分析では、説明変数が多くなるとあてはめそのものは
無条件に改善されてしまうリスクがある。
これをチェックするために、自由度調整済み決定係数を使う。
・自由度とはデータ数からパラメータ数を引いた値。
これだけのデータが揃えば残りが特定されてしまうという意味。
・説明変数間は相関が無いデータを選ぶべき。
例えば、天気と気温は選んではいけない。
多重共線性という問題が起きてしまう。
・カイ二乗検定では、クロス集計表の行列に相関がないかを
チェックする。ロジスティック回帰で行う検定。
・箱ひげ図の上下線が四分位範囲の1.5倍と定義したのは、
正規分布の特徴からである。これで99%近くを網羅するので、
それより外れたデータは外れ値としての検証が必要。
・母集団全体でバラツキを調査する場合は、
データ量で割ってもデータ量-1で割っても変わらないが、
一般的に標本集団でのバラツキを調査することが多く、
標本集団のバラツキは母集団よりも小さくなる傾向にある。
それを補正するために、データ量-1で割る。
これを不偏分散という。
・カイ自乗検定において、クロス集計表に5より小さいデータが含まれるとき、
検定の結果が不正確となることがある。
この場合は、フィッシャーの正確確率等を検討すること。