データビジュアライゼーションという言葉を最近よく聞く。
本書はその方法を、具体例(経済データ)に則しながら解説した本。
ターゲットは、文系でデータ分析を学ぶ機会がなく、社会人となって扱わざるを得なくなった人、なのだろうか?
第1章は図化の下準備作業が示される。
統計の基礎知識の確認の趣がある。
ある程度基本を知っている人が、さっと基本を確認できるようになっている。
1)データの全体像をつかむ
・三つの平均(算術平均、加重平均、移動平均)
・値の取り方を見る(最大値・最小値・中央値)
・データの集中具合を把握する(分散・標準偏差)
2)2種類以上のデータの関係を捉える
・ばらつきの関係性(共分散と相関係数)
こうしてデータの概観をしてからグラフ化する。
原データを使ったグラフに適しているのは線グラフと散布図とのこと。
線グラフで極端なでこぼこがないかをチェックし、その部分の変化率や指数に変換して評価をする。
一方、2つ以上の変数の関係を考える上では散布図を描く。
そこで相関係数をとったり、回帰分析に進むかの方針を立てたり、データを更に加工することで傾向が見えないかを探る。
2変数の平均値でグラフを四つの象限に分けたり、45度線を加えたりすることなど、著者の経験からとっかかりとして使いやすい方法が紹介される。
地図、棒グラフ、円グラフは意外と使いづらいとも述べられていた。
表現できる情報が限られるからだ。
これらは表現したいデータがはっきりしてから、まとめに使うのが効果的とのことだった。
図に描く作業は最後ではなく、探索的に何度も描いていく中で、分析に適した分類や集計方法を見つけるということがよくわかった。
データを得て、さて、どうしたらいいか、という人が最初の一歩を踏み出しやすくなると思う。
2章以降は、具体例に則してどうデータを加工するか乃ノウハウが示される。
2章はデータの「粒度」の設定。
コロナ前後での商品販売額のPOSデータを加工しながら解説される。
例えば販売額で比較するより、順位で比較し、散布図を描くする方法が紹介される。
販売額という規模の情報が抜け落ちてしまう一方で、価格が異なる商品間の関係が見やすくなる。
たしかに、昨今の価格上昇の中での経年変化を見たりすることができるだろうから、こういう方法もありだな、と思われる。
データの粒度という点では、時間データの刻みを細かくすることで見えるものの例として、コロナ禍の情報と販売順位の関係を見た分析が面白かった。
日次の集計ではもちろん、煩雑になりすぎる。
かといって、このテーマでは月次や年次の集計では変化が均されてしまう。
ということで、筆者は週次で集計することで、例えば紙製品が不足しているという情報が購買行動に影響を与えていることが可視化される。
こういうことも、変化が乏しければ刻みを小さくし、逆に凹凸が激しくて傾向が見えにくければ刻みを大きくするなど、尺度を変えて何枚もグラフを書き換えて調整いくものらしい。
第3章はデータを組み合わせ解像度を上げる方法。
冒頭にあるように、異なるデータを組み合わせるのは難しいと感じる。
そこで、本書では時間の集計単位を揃えることで、POSデータと家計簿アプリのデータを重ね合わせる事例を取り上げて解説してある。
POSデータでは購入された品目が詳細にわかるが、スーパーやコンビニで扱わない商品や、サービスへの支出動向が見えない。
そこで家計簿アプリからのデータを接続した、ということのようだ。
この他、主観データ(ここでは中小企業景況調査のディフュージョン・インデックスを例としていた)と客観データを接合する例もあげられていた。
第4章は「人の動きを把握する分析」。
この辺りに来ると、方法としてどうするかより、著者が示したグラフを読んで、「ほー」と思って終わってしまう自分に気づく。
分析例は、コロナ前から後の時期で、インバウンドの動向をさぐるものだ。
訪日観光客のグラフを描くと、2015年を機に訪日観光客が急増していることがわかる。
ところが、2019年のコロナ禍により大きな変化が起こる。
こういう短期間で大きく構造が変わってしまう局面では、線形回帰分析で予測を立てていくことはできない。
さて、どうするか、というお話。
そこで、規模の情報を落とし、順位や成長率を都道府県別に分析する方法がとられる。
ランククロック形式で人気順位がグラフ化されている。
この形式は初めて見た。
順位の情報は時間を横軸にとった線グラフでも処理できるが、期間が長くなると横に長いグラフとなってしまう。
ランククロックの利点は、始点と終点が同じ位置に描かれるため、比較が容易であるとのこと。
また、都道府県別宿泊者数という規模の情報を、年平均成長率に集計し、日本人旅行客とインバウンド客のものをそれぞれ縦軸、横軸にとった散布図にする。
さらに、図の点を、旅行客数の多さに合わせ、大小に表現する(バブルチャートにする)。
こういうグラフはあちこちでみるけれど、こんな手数がかかるものか、とじわじわ理解できる。
クラスタリング分析の話は、少し難しい。
複雑なデータからパターンを見つけ出し、分析するための手法ということなのだが・・・。
ここでは「非不値行列因子分解」の手法が紹介されていた。
事例が何を表現しているかは何となく分かるのだが、これは自分が使えるようになれる気がしない。
第5章はふるさと納税の制度設定が適切なのかを検証していく。
ここはアンケート調査の結果を分析していて、ここまでと少し毛色が違っている。
アンケート結果は、制度の何が課題かについての仮説を立てるのに利用される。
それを基点に、制度の利用状況と生活満足度の相関を見たり、寄付先自治体数ごとに個人年収の分布を見ることなどにより、寄付できる自治体数の上限が5に設定されることが不満につながっていくことを導いている。
「じゃない方」(今回の事例ではふるさと納税に不満を持つ人達)をいかに可視化するかという考え方は面白い。
第6章はデータが少ない分野でどうするか。
デジタル分野は意外と公的な調査も少なく、分析が進んでいないとのこと。
個人を対象にした調査を使うなどの工夫が必要なようだ。
第7章は効果的なアンケート調査の方法についての指南。
ここは自分にとっては特に新しい内容ではなかったが、どういう形で図化するかをイメージしてアンケートを組む、というのは大事なんだろうな、と感じた。
本書は、後輩に激推しされ手に取った。
シロートがレビューすると、こんな風にだらだら書きつられてしまうことになる。
が、読んで良かったかな、とは思う。