多変量解析には、
因子分析、重回帰分析、ロジスティック回帰分析、主成分分析、クラスター分析、構造方程式モデリング、など
標本抽出法には、
単純無作為抽出法、層別抽出法、2段抽出法、層別2段抽出法など
アンケートの世界では、400のサンプルを最低限とする、という考え方がある。賛成反対が5分5分のときに、信頼率95%で10%のぶれの中に納まる数。
探索型と分析型のデータ分析=手元にあるデータを分析するか、仮説を立ててデータを集めるか、の違い。
複数回答は、いくつでも、のほうが2つまで、より負担が少ない。
数量回答は、回答欄をケタで区切る。
段階の回答は最大で7つまでにする。
真ん中を含めるか含めないか。
相関行列=対角が同じ短相関係数である行列
固有値、固有ベクトル
主成分分析に制約を課せば因子分析と同じ
主成分分析とは
データの分散が大きいところが主成分
主成分は実在しない新たな変数を作り出すもの
データを基準化=平均0、標準偏差1にそろえる。
ラグランジュの未定乗数法で計算する
相関行列を作る。
相関行列の固有値と固有ベクトルを求める
最大の固有値に対応するベクトルと2番目のベクトルで直交座標をつくる
各データの第1主成分と第2主成分を求めてグラフ化する
寄与度を計算。第2主成分までで50%以上の寄与度は欲しい。
変数が多いと寄与度は下がる。2つの変数なら2つで100%。
データの分散が最も大きなところの軸を求めるコト、は相関行列の最大の固有値と固有ベクトルを求めるコト、ど同義。
主成分分析は、新たな説明変数を作り出すこと、
因子分析は、隠れた説明変数を見つけ出す、こと。
説明変数の数はあらかじめ想定する。それらの因子負荷量を確認するのが目的。
データを基準化する
任意の共通因子間の短相関係数は0と仮定するのは直行因子モデル、総仮定しないのは斜交因子モデル。
因子負荷量のない目的変数があった場合
それを除いて、あらためて因子分析をやる
因子負荷量の値を下げて、無理やりどの目的変数にも役割を持たせる。おおまかには0.3~0.5程度は欲しい。
回転はバリマックス法が主流。
現在は、主因子法より最尤法、バリマックス法よりプロマックス法、が主流
統計的仮説検定は
母平均の差の検定=t検定
独立性の検定=χ二乗検定
母比率の差の検定
母分散の比の検定
wilcixon検定