【感想・ネタバレ】データ分析の力 因果関係に迫る思考法のレビュー

\ レビュー投稿でポイントプレゼント / ※購入済みの作品が対象となります
レビューを書く

感情タグBEST3

Posted by ブクログ

一線級の研究者によるデータ分析の手法がとても分かりやすく書かれた良書。

突き詰めると、比較できる状況をいかにして作り出せるかが大切ということだろうか。

本筋とは逸れるけど、「何らかの結果を出さなければらならいのは間違い。データ分析の結果、なんの結果も得られなかったということも、十分立派な研究成果」という記述が印象的でした。

0
2021年04月17日

Posted by ブクログ

RCTとは、ランダムにサンプルを抽出し、介入グループと比較グループに分けて実験を行う。サンプルの質の変化を発生させる等の課題もあるが、因果関係を探るにあたって最良の方法と言われている。Googleはマーケティング案を現実の世界で実験をしてから比較する。

0
2020年09月19日

Posted by ブクログ

「実践的データ分析に焦点を当てた、計量経済学への超入門書」
読みやすさと専門性のバランスが最高にいい。これぞ、新書という本。
データを正しく見るにはどうしたらいいのか、その手法から注意まで納得のいく説明。書体もスラリと入ってきて、やさしさがある。
計量経済学を勉強したくなる。

0
2020年06月06日

購入済み

因果関係は大事

第60回日経・経済図書文化賞、第39回サントリー学芸賞受賞。2017のベスト経済書かもしれない。データで因果関係を知るために必要なことが分かる

0
2017年12月27日

Posted by ブクログ

分かりやすい実例満載でとても読みやすかった。
因果関係って、あまり考えずに原因と結果を結び付けてしまう日常をすこし反省。

0
2024年03月12日

Posted by ブクログ

この本でも相関と因果をしっかり区別すべきことを強調した上で各データ分析手法を解説している。
RCT: ランダム化比較試験、自然実験(RDデザイン、集積分析、パネル・データ分析)
本書執筆にあたっては最近メディアへの露出も多い成田悠輔氏も携わっている模様。

0
2023年08月16日

Posted by ブクログ

データをどのように扱えば良いのか?結果だけを過大解釈してしまう弊害など、データを扱うにおいて重要な考え方が数式なしで書かれていて、非常にわかりやすかった。

0
2023年06月03日

Posted by ブクログ

【因果関係の証明】
原因と結果のズレに敏感になる。
十分かつ偏りのないサンプル数、同条件が必須

可能なら、介入、比較グループそれぞれで介入前後のデータを見る。

0
2021年11月30日

Posted by ブクログ

わかりやすい。計量経済学 ビッグデータからの因果関係のみきえわめの考え方 RCT RDデザイン 集積分析 パネル・データ分析
行政データ経営データ活用紹介

0
2021年08月15日

Posted by ブクログ

データ分析を計量経済学の観点で分かりやすく説明してくれている本書。

数学的知識は一切必要なく、電気代の値上げと電気使用量の変化の関係など、我々にとっても身近なテーマにどう答えを出すのかを解説してくれている。

主な手法としては、ランダムに調査サンプルを抽出するRCT、ランダム抽出が難しい場合、擬似的にRCTに近い構造を作り出す、RDデザイン、集積分析、パネルデータ分析が紹介されている。

こうした分析は、対象となる範囲での分析結果としては興味深いものの、例えばそれを日本全土などに適用する政策に落とし込むには大いに難度が高まるなど、現時点での限界にも踏み込んであり、良書と言える。

0
2021年06月23日

Posted by ブクログ

データ分析の入門書としては最適。実例が多く掲載されており、データ分析がいかに重要かがよく伝わってくる。特にオバマの選挙戦略は結構面白かった。意思決定1つ変わるだけでこれだけ結果も変わってくるということを知ると、データ分析の可能性を改めて感じる。

0
2021年03月23日

Posted by ブクログ

データは存在するだけでは価値はない。そのデータをどう利用するかに価値がある。この広告(X)と今年の売り上げ増(Y)の動きは連動しているが、本当に因果関係は成立しているのか?本当は別の原因が見えないところに存在しているのではないか?本書はデータから物事(XとY)の因果関係を読み解く難しさから始まり、その因果関係を読み解くためにはどういった手法があるかについて順番に紹介している。
本書ではRCT方法をはじめとする約5つの手法を小難しい数式を使わず、単純明快に解説してくれるため、内容がすんなり入ってくる。特にオバマの選挙運動中のウェブサイトにおけるRCTは例が分かりやすく、理解が進んだ。どの方法にも長所や短所があり、使い方はその時々で取りたいデータを元に選べばよい。ただ、XとYについてある因果関係が成立したからと言って、データ分析の対象となる主体よりも広い範囲で同じ理屈が通用するかという「外的妥当性」は別に考えなければならないという点は、気を付けなければならないと思った。1から10という範囲で因果関係が見つかったからと言って、必ずしも1から1000でも同じことが言えるか、それは別問題になる。
また、第6章で紹介しているオバマ政権下で進んだ「エビデンスに基づく政策形成」は興味深かった。単にデータだけに基づくのではなく、データの因果関係に基づいて政策がどのような影響(プラスもマイナスも)を及ぼすのかを検討することがより良い選択につながるのではないかと思った。果たしてトランプ政権時にこの政策がどうなったかはわからないが…

0
2021年03月10日

Posted by ブクログ

統計学を実際のビジネスの場で活用した事例が数多く載せられており、非常にわかりやすい。
因果関係と相関関係の違いがわかっただけでもよかった。最後に次のステップの本も紹介されているので読んでみようと思う。

0
2021年02月14日

Posted by ブクログ

ネタバレ

読書的には、正しくデータを分析して、そこから得られる科学的なエビデンスが、企業や政治のあらゆる取り組みにうまく応用できるということだ。
正しくデータを分析したいとき、外部の要因が調べたい因果関係に影響してくると、そのデータは不十分となる。
データ分析の方法としては、RCT、RD、集積分析、パネルデータ分析が本書では紹介された。
それぞれには、メリットデメリットが存在し、時や状況に応じて使い分ける必要がある。
日本ではまだまだ公的なデータ分析が進んでいないので、国はもっと、専門家の情報へのアクセスを進め、産学官連携し、得られた科学的なエビデンスに基づき、政策を決定していくべきだと述べられている。

0
2021年02月08日

Posted by ブクログ

データ分析を用いて因果関係に迫る方法論の入門書。数式を一切用いず、因果関係を見出だすための思考法・アプローチ方法を実例を示しながら、直感的に理解できるように構成されている。基本的な考え方を理解しているだけでもとても有益だと思う。

0
2021年02月08日

Posted by ブクログ

数式を使わないでできる因果分析の解説
分析じゃなくてデータ選択で因果を図る手法の説明が主
因果分析の説明は式が入ると難しいからこういう本でイメージ作るのが良い

介入効果は根本的には観測不可能。平均介入効果として調べられるようにする
ランダム化比較試験では透明性・説得力のある説明が可能
RDデザイン:非連続で分析するRDデザイン、
集積分析:ヒストグラムの偏りを調べる
差分の差分法:平均トレンドの引き算で因果を調べる

専門家:問題把握、問の検証、データの検証、実験のデザイン、分析とプレゼン
外的妥当性と内的妥当性、介入の波及効果

0
2020年12月06日

Posted by ブクログ

境界線で非連続に変化する状況に注目する(RDデザイン)
例:ある年齢で制度が変わる

階段状に設定されている制度に対する反応(集積分析)
例:税率、補助金、割引

複数のグループの複数期間のデータを比較する(パネル・データ分析)
例:ある年から特定の対象への制度が変化した場合

電力価格が上昇すると、電力消費量は低下する。モラルに訴えるよりも、価格を変化させる方が効果は高い。

0
2020年10月15日

Posted by ブクログ

外部の研究結果のみではなく、筆者が関与した研究について論じられていることがよかった。

計量経済学や因果推論についてなにかしらふんわりと理解があり、より詳しく知りたい方におすすめ。
まったくの初学者には中室さんの書籍をすすめたい。

0
2020年09月22日

Posted by ブクログ

マーケティング職なので、データ分析は行うのだが、そのための教育を受けたわけでなく自分の分析に懐疑的だったため、勉強のために読んでみた。入門編の分析手法と例がわかりやすく示されていた。ただし、これを読んでもその分析ができるわけでない。練習問題のようなものがあってほしかったな。
以下学び:
因果関係と相関関係の違いを意識すること。
どの分析にも共通するのが、実際に起こっていない事は、「測定できない」。仮説が成立するであろうと言う事象を出来るだけ集める事が重要。
RCT:グループ分けは必ずランダムに行う。
RD:境界線をうまく使う
RCT:集積分析 階段状の変化を見る。例;課税される地点で急な変化が起きるか。インセンティブの効果診断に有用
出版バイアス; 結果が0に、即ち、因果関係がないと言う結論が出た論文は意味がない、面白味がない、読まれない、と発行されない。因果関係がないと言う意味あると言われるようになって久しいが、まだ偏見がある
パートナーシップバイアス: データを提供してくれるパートナーからのデータを使いがち
データ分析は、何を分析したいのか。そのための正しいデータはあるか。ないと良い仕事は出来ない。

0
2020年08月12日

Posted by ブクログ

相関関係と因果関係は全く別!!
ランダムなグループ分けが鍵!
平行トレンドの仮定など、様々な考え方の基本がわかりやすく記載されており、非常に興味深かった

0
2020年08月17日

Posted by ブクログ

データサイエンスの入門書として読んだ。
大学とか仕事とかで 本当に触れたことがない人には良書だと思う。もしくは、WEBとかで一定の知識がある人が頭の中を整理するため、とか。
最後に、更に学習を進めるための参考図書をレベル別に紹介してくれてるのがありがたい。

0
2024年03月11日

Posted by ブクログ

データ分析の基本を広く扱ってくれる。
因果関係の正しい認識には技術や意識づけが一定必要だと思うが、この本はそれを分かりやすく伝えてくれる。実例もたくさん扱っているため頭に入ってきやすい。

0
2024年02月01日

Posted by ブクログ

データ分析の入門書

右も左も分からない私が興味深く読めた1冊です。
因果関係のお話は特に面白いです。情報に溢れた世界で正しいものを見つけるひとつの指標になると思います。



0
2023年02月09日

Posted by ブクログ

ネタバレ

統計学を学ぶときに「相関関係はわかるが因果関係は分からない」ということを何度も言われる。これを解決するための手法の第一がRCTなわけだが、その他にも因果推論のための統計学に関する話題をよく見かける。

本書はジュディア・パールの「因果推論の科学」があまりに難しかったので、少し予備知識をいれるために一読。なんでもかんでも数学的に因果推論できるわけでなく、やはりそれなりのデザインを組んでからデータ収集をしないと交絡因子を解消できないということか。

0
2023年01月02日

Posted by ブクログ

データをベースにしてできることの引き出しを増やせたらと読んでみた1冊。予想と違って、事例より理論の話、それも「どうそのデータを得るか」の手法の話が多く、アンケート関連やデータの取り扱い関連の本でまずはじめに取り上げられる内容が論文形式に近い形で書かれていて「それは知ってます」という感じの1冊でした。どちらかというと、「こういうデータ2つからどう相関関係を見出すか」といった内容を期待していただけに、少しストライクゾーンから外れた印象があった。次行ってみようと思います。

0
2021年12月04日

Posted by ブクログ

【感想】
コロナウイルスが猛威を振るい、ワクチンの開発・治験が急ピッチで進められる中、「ランダム化比較試験」という単語をニュースで初めて聞いた人も多いのではないだろうか。
わたしもその一人である。自分にとってデータ比較分析とは、治療薬を開発するステップの1つという認識でしかなく、自分の生活の近くに根差しているという認識は無かった。

しかし、「データ分析」は今後誰でも使う/使わざるをえないスキルである、と本書は述べる。
「データ分析」と名付けるとあたかもデータサイエンティストの専門分野という錯覚を起こしてしまうが、これを「因果関係を探る力」と読み換えれば、どの職種においても必要不可欠なスキルであることは明白だ。

どうして比較の際には2グループが必要なのか、調査対象項目以外を同一条件に置かなければならないのか、実験の参加者に詳細な実験内容を知らせてはいけないのか。そうした分析の際のイロハを0から解説するとともに、ランダム化比較分析が行えない場合の代替手段も丁寧に記されている。
少なくない数のグラフが登場するが、数学の知識は不要であり全く難しくない。まさに初学者にうってつけの本であった。

藤井保文・尾原和啓著『アフターデジタル』では、ビッグデータを収集する際に陥りがちな「罠」について説明されている。データの利活用方法を検討せずにビッグデータを集めるだけでは、ただ個人情報を含んだ数字の羅列がストックされるだけで、何の付加価値ももたらさないということだ。

そして、「データの扱い、分析、解釈」を行うのは人間である。不明瞭な情報群に対してどのような実験を行い、得られた結果にどんな意味付けを行うか。そして、実験結果をいかにして現場に活用していくか。
これらは全て「因果関係を読み解く力」という一本の線で繋がっているのだ。

―――――――――――――――――――――――――――――――――――――

【本書のまとめ】
0 あらすじ
データ分析の力が、これまで以上に多岐に渡る職種において要求されるようになってきている。

本書では、データ分析の考え方で最も基本になる「因果関係の見極め方」について解説する。


1 因果関係の立証は難しい
「ある要素(X)が結果(Y)に影響を与えた」という「X→Y」の因果関係を立証するのは難しい。それは、
①他の要因が影響していた可能性がある(ZがXとYに影響を与えている)
②逆の因果関係であった可能性がある
からだ。

因果関係と相関関係(XとYが相互に関係しているだけ)をごっちゃにして語られることがあまりにも多い。ビジネスの場でも政策形成の場でも、因果関係を見誤ると誤った判断につながり、大きな利益損失や税金の無駄遣いを招く。しかも、因果関係の立証の難しさは、データの観測数が増えることだけでは解消しないのである。


2 ランダム化比較試験
因果関係をデータ分析によって明らかにする最良の方法は、「RCT(ランダム化比較試験)」である。
RCTでは、介入グループと比較グループ(介入が起こらなかったグループ)の平均値の差を求めることで、効果測定を行う。

●RCT実施の際の鉄則
・適切なグループ分けをする
・グループ分けは完全にランダムに行い、参加者の意思を介入させない
・各グループには十分なサンプル数を振り分け、平均値計算の際の標準誤差を小さくする
●RCTの利点
・因果関係が科学的に示せる
・分析手法や結果に透明性がある

グループ分けの際のランダム化の方法としては、「単純ランダム化法(乱数で割り振る)」を使えばよいが、サンプル数が少ないとどちらかに偏る可能性があるため、「ブロック・ランダム化法(同じ特性を持つ参加者をブロックに分け、その後乱数で割り振る)」を行う。

●RCTの弱み
実験に当たって費用・労力・各機関の協力が必要になる


3 自然実験
RCTが実施できない場合は、「自然実験」という手法を用いることができる。自然実験とは、あたかも実験が起こったかのような状況を用いて因果関係を分析する手法だ。自然実験の代表的な手法の一つとして、「RDデザイン」が挙げられる。

●RDデザイン
世の中に存在する「境界線」を上手く使い、因果関係に迫る自然実験手法。
(例)日本では、69歳から70歳になると、外来患者が非連続的に10%上昇する。まるで境界線のようにいきなり患者数が増加するのだ。
→医療費負担が3割から1割に減るので、70歳になった途端に医者にかかる人が増えるから

RCTと異なる点は、「実際には起こらなかった潜在的結果」――医療費で言えば、70歳になっても自己負担額が3割のままであり続けること――が「観測できない」ことである。RCTは違って、RDデザインは仮定のまま比較グループとの差を語らなければならない。
では、どうやってRDデザインの信用性を担保するのかといえば、「非連続的にジャンプしているか」、要は「自然状態と比べて、不自然な増加をしていないか」を検証しているのだ。

●RDデザインの鉄則
・境界線を境に一つの要素(X)のみが「非連続的に変化する状態」を見つけ出す
・境界線付近で、X以外の要素が非連続的に変化していないかのチェックを行う

●RDデザインの強み
・過程が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる
・RCTが実施できないときに有効な分析手法となる

●RDデザインの弱み
・RDデザインに必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできない
・境界線付近のデータに対しての因果関係しか主張できない。そのため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある


4 集積分析
集積分析とは、階段状の変化を上手く使い因果関係に迫る手法。
何らかのインセンティブが階段状に変化する(例:所得税の税率)を利用し、インセンティブが大きく変わる境界点でのデータの集積を分析することで、人々や企業がインセンティブの変化に反応した因果関係を検証する。

●集積分析の強み
・過程が成り立てば、境界線付近であたかもRCTが起こっているかのような状況を利用できる
・RCTが実施できないときに有効な分析手法となる

●集積分析の弱み
・分析に必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできない
・境界線付近のデータに対しての因果関係しか主張できない。そのため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある


5 パネル・データ分析
RDデザインや集積分析のように、境界線が用意できない場合にはどうすればいいか?
一つの可能性が「パネル・データ分析」である。「パネル・データ分析」とは、観察対象を複数の期間において観察し、別のグループと比較することである。

●パネル・データ分析の鉄則
・介入が起こった時期の前後のデータが、介入グループと比較グループの両方について入手できるか確認する
・平行トレンドの仮定が成り立つか確認する
「平行トレンド」→もし介入が起こらなかった場合、介入グループの平均的結果と比較グループの平均的結果は平行に推移する。
・平行トレンドの仮定が成り立つと断言できた場合、2つのグループの平均値の推移をグラフ化し、介入効果の平均値の測定を行う

●パネル・データ分析の強み
介入グループに属する全ての主体に対して介入効果の分析が可能であり、分析できる対象の範囲が狭いRDデザインや集積分析に比べて優れた点である。

●パネル・データ分析の弱み
仮定が非常に難しい。X以外の要因が重なれば、たちまち平行推移が成り立たなくなってしまう。
また、複数機関のデータを介入グループと比較グループの両方について収集する必要がある。


6 実践編
どうすればデータ分析をビジネス戦略や政策形成に生かせるのだろうか?
①データ分析専門家との協力関係を築く
データ分析とは、ただデータを取ってそれをエビデンスとして示せばいいというものではない。収集すべきデータは何なのかといった、「コンピュータにデータが上がって来る前の段階も含めたスキルや経験」が重要になる。そのため、データ分析の結果を利用する「現場の人間」とデータ分析官の協力が必要である。
②データへのアクセスをひらく
なるべく多くの団体・企業が、行政データ・経営データを利用できるような環境を整える。


7 データ分析の限界
①データ自体に問題がある(数値が正しく記録されていない、大量の欠損値がある、サンプルが偏っている)ときは、優れた分析手法でも解決できない。
②実験や自然実験で得られた分析結果が、分析で使われたサンプル以外にも適用できるかわからない→「外的妥当性」の問題。データの取得範囲に依存する。
③データ分析者やデータ分析のパートナーの意に沿わない結果は世の中に出てきにくい。
④介入グループに施した介入が比較グループにも「波及効果」を持つ可能性がある。
⑤小規模の実験の結果と大規模な政策の結果がズレる場合がありうる。

0
2021年06月13日

Posted by ブクログ

入門書。優しく入ってくるが、抜けてしまうのも早いかも。
データ分析は、比較対象をしっかり選ぶことでより有益かつ正確性が増す。が、身近なデータで何に適用できるのか、わからない。

0
2021年05月12日

Posted by ブクログ

数式なしの因果関係分析を解説している。
状況に応じたRCTとパネルデータ分析の必要性を説明している。

0
2021年01月18日

Posted by ブクログ

相関関係は必ずしも因果関係を表していない。ではどうやったら因果関係を捉えられるのか、いくつかその手法を紹介している。
やや冗長的ではあるが、RCTを中心とした統計的手法が紹介されている。数式もなく訂正的に理解しやすい。
個人的にはあまり発見はなかった。

◯因果関係を導くランダム化比較試験(RCT)
・サンプル数が少ないときは同じ特性を持つ参加者をブロックに分け、その中でランダム化する層化ランダム化法が使える。※参考文献をevernote に保存

◯RCTが使えない場合の選択肢
・RDデザイン: ある要因で非連続なジャンプや境界があった場合にほかに非連続なギャップがなければ、その要因の因果関係が見える。
・集積分析: 階段状のデータ(例えば燃費規制や税率など)、横軸の変動そのものがインセンティブによってどう起こるかを分析できる
・パネルデータ分析: ある変化の介入を受けたグループと受けなかったグループの双方で差を分析する。介入がない場合双方の差は平行に推移する仮定がある。元々の差は影響せず応用範囲が広い強みだが平行トレンドは多くの状況で成り立ちにくい。

・双方とももし非連続な横軸の変化がなければ縦軸もなめらかな連続的な変化のはずという仮定があるが、完全にこれを立証することはできない。、

0
2020年08月09日

Posted by ブクログ

XとYに相関関係がある場合、考えられる可能性は3つある。①Xが原因でYが変化した。②Yが原因でXが変化した。③Zが原因でXとYが変化した。因果関係を見誤ると無駄な施策を実施する恐れがある。
ただし、因果関係の根拠を示すのは意外と難しい。本書ではこの方法として、ランダム化比較試験(RCT=ABテスト)、RDデザイン、集積分析、パネル・データ分析を紹介している。数式は使わず、図を用いて感覚的に理解しやすく工夫されている。
RCT以外の分析を使う状況はかなり限られると思うが、これらの手法があることは心にとどめておきたい。

0
2020年07月23日

Posted by ブクログ

 データ分析のお勉強。

 因果関係をデータ分析によって明らかにする最良の方法はRCT(ランダム化比較試験)
 RCTの弱み:実験の実施にあたって費用・労力・時間・各機関の協力が必要なこと。

 RCTが実施できない場合「自然実験」という手法を用いることができる
 「RDデザイン」は世の中に存在する「境界線」を上手く使い因果関係に迫る自然実験手法
 RDデザインの弱み1:必要な仮定は、成り立つであろう根拠を示すことはできるが、成り立つことを立証はできない
 RDデザインの弱み2:境界線付近のデータに対しての因果関係しか主張できないため、実験参加者全体への因果関係を主張できるRCTに比べて有用性に欠ける場合がある

 「集積分析」は、階段状の変化を上手く使い因果関係に迫る手法
 集積分析の弱み2:あくまでも階段状に変化するインセンティブに反応した主体に対しての因果関係しか分析できない。

 複数のグループに対し、複数期間のデータが入手できる場合、パネル・データ分析を利用できる可能性がある
 パネル・データ分析の弱み2:RDデザインや集積分析における仮定に比べ「平行トレンドの仮定」は非常に難しい仮定であり、実際には成り立たない状況も多い

 データ分析の結果が分析で対象とされた主体以外へも適用可能なのか、という「外的妥当性」の問題は非常に重要であり、外的妥当性と内的妥当性の両方を加味した場合、どの分析手法が優れているかは状況によって異なってくる

0
2021年08月08日

「IT・コンピュータ」ランキング