あらすじ
アメリカの失業率は実質ゼロ%? 毎朝1ポットのコーヒーを飲めば長生きするが、一日2杯のコーヒーは発がん率を高める? 様々な事例をもとに、各種データから巧妙に導き出されるトリックを明かし、騙されないための極意を伝授。ビッグデータ時代の必須教養
...続きを読む感情タグBEST3
Posted by ブクログ
統計データのゆがみについて
最後の章にまとめがあるので引用
パターンの誘惑
間違った、あるいはバイアスのかかったデータ
怪しいグラフ・データの省略
よく考えずに計算する
交絡因子がないか
絶好調の波vs大数の法則の誤解
平均への回帰
テキサスの狙撃兵(たくさんデータを集めて都合のよい部分だけ抜き出す)
理論なきデータvsデータなき理論
Posted by ブクログ
おもしろい〜
読み終わって、数字は嘘をつかないけど、嘘をつく人は数字を使うって言葉を思い出した。
意味のないパターンでも、何かの効果の根拠であると言われればすぐに意味があるものと受け止めてしまう。人間の弱点は、世界を理解したいという欲求から生じている。
認知ミス1.パターンとそれを説明する理屈の魅力にかんたんに屈してしまうこと。
認知ミス2.自分の考えを裏付けるデータにとびつき、矛盾する証拠を無視すること。
データ•グラビング
有意性を示すために、公表する結果を選別したり、データを強引に探し出したりするやり方
自己選択バイアス、たまごとにわとり。
生存者バイアス、データから理論を引き出す危険性。ビジョナリーカンパニーの無意味さ。目に見えないデータの方が重要な意味を持つこともある。
元になる数字が小さいとき、比較のために規模を調整するがその調整のせいでおかしなことになることもある。時間の経過以外に共通点のないものを比べるときは、りんごとプルーンを比べるようなものだ。
チャートジャンク、テキストジャンク
ジョン•メイナード•ケインズ
長期的には、われわれはみんな死んでいる。嵐吹き荒れる季節に経済学者たちが言えるのが、いずれあらしは過ぎ去って時間がたてば海はふたたび静かになります、というだけなら、それはあまりにも仕事として簡単すぎるし役立たずすぎるだろう。
アインシュタインが即答した最も重要な概念は複利。
第19章の総まとめはすごく助かった。
パターンは理にかなった説明がなければただのパターン。理にかなった理論は新しいデータで検証しなければならない。
交絡因子、自己選択バイアス、
チャートジャンク、
考えずに計算、比較する、サイズ、時間の経過による意味、無関係なデータ比較。
見えないデータに意味がある
平均への回帰
大数の法則
テキサスの狙撃兵、これはおもしろかった!適当に打って集中的に当たったところに的を書く!不自然なグルーピング、
除外されたデータ
信じたいものを信じる人がいる
理論なきデータ、宝くじをあてるコツ、スーパーボウルの結果による株価の行方、
Posted by ブクログ
スティーヴン・レヴィットのベストセラー『ヤバい経済学』の目玉の章である、ニューヨークの犯罪減少の最大要因が中絶の合法化、という内容が否定され、かつ、レヴィット自身がそれを認めていたのが、大変衝撃的だった。
他の内容は大体統計の面白本でよんだことがあるよう内容だったけど、筆が鮮やかでとにかく読みやすい。
Posted by ブクログ
数字というものは実に力強い。
数字で表現すると他者との比較が可能になるし、過去との比較が可能になるし。相関性についても、ほら相関係数が1に近づいています、というとなるほど確かに、などと思ってします。
ところが、ところが、実は数字だって怪しいものがある、しかも相当ある、というのが本書の主張するところです。
・・・
本作、19章に渡って、これはおかしい、あれはおかしいとまくし立てております。夫々、なるほどと思うことがあります。
分かったり分からなかったりしましたが、印象深かったものを以下に記したく存じます。
・・・
<生存者バイアス>
第二章で図入りで解説されています。
英国空軍が帰還飛行機の被弾状況を見て、どこを補強すれば生還率が上がるかという話。
A:「コクピットやエンジン、燃料タンクよりも、被弾が多かった翼と後部部分を補強」
B:「コクピット、エンジン、燃料タンクを更に補強」
答えはBでした。
コクピットやエンジン・燃料タンクに被弾した飛行機は撃ち落されてそもそも帰還できず観察されなかった。一方、帰還した飛行機の被弾状況を見ると「これは被弾している翼部分や後部を補強すればよい」と考えてしまうわけです。つまり生き残っているものだけをみてはいけない。
帰還率を上げるには、墜落の原因になったコクピット・エンジン・燃料部分を補強すること、というのが結論になり、実際うまくいったという話。
同じような誤りを、かの有名な「ビジョナリーカンパニー」も犯していると主張。
今生き残っている優秀企業(のみ)から成功の源を探るものですが、同じ特性を持っていても途中で潰れた会社もあるわけです。正しい分析をするのならば、同じ特性を持つ企業をピックアップし、そこからアウトパフォームできるかを(つまり生存者バイアスを除いて)将来に向けて確認する必要がある、という主張です。
・・・
<相関関係は必ずしも因果関係ではない>
第三章の例で、ビールの消費量と結婚者数がグラフで書かれています。どちらも右肩上がり。これを見て、「アルコール消費量が増えると結婚するカップルが増える」という結論が演繹したとします。
もちろん、これは間違い。
背後に人口が増加しているというベースストーリがあるとすれば、応じてビール消費量もカップル数も増加して全くおかしくありません。
計算上は、アルコール消費量とカップル数は相関性が見いだせるということ。故に改めて確認するべきは、相関性が因果を示すわけではない、ということ。
・・・
<パターンを見て理論がないもの(テクニカル分析)>
米国だとスーパーボール(アメフトの日本シリーズみたいなもの)の勝ち負けで株価が上がる下がるなどとまことしやかに言います。筆者はこれを偶然と言い、同様のことを株式のテクニカル分析にも指摘します。
パターンがあって、そこに理論(説明)を当てはめただけで、ある現象の説明を仕切れていないという主張です。
こちらについては16章に詳しいです。
・・・
<その他>
・理論を立ててから、合致するデータを持ってくるもの(不整合なデータの切り捨て)
・データを集めて当てはまるところを取り上げるもの
・グラフを拡大し大きな上下に見せかけるなど
こうした事例を多く示していましたが、科学に従事する人であろうと、見たいものしか見たくないという心の状況がデータの欠落(意図的か偶然かによらず)につながっているということなのかもしれません。
因みに最終章(19章)はまとめのような形であり、時間がない方は先ずこちらを読むと概ね内容が分かるかと思います。
・・・
ということでデータの見せ方のお話でした。
非常に参考になりました。
数字を使って流麗に説明されると、感覚的におかしいなと思っても説明・反論ができないとそのまま会議でも流されてしまうことが多々あります。
そういう「もやもや」を言語化をする上で本書は有用だと思います。数字だって使い方がおかしければ、やはり正しくないのです。
数字をベースに仕事をされたい方、投資を良くされる方、ギャンブルと確率について関心のある方等には参考になると思います。
Posted by ブクログ
データドリブンを装う理論や研究成果も、十分に疑ってかかるべきということを、様々な類型と実例で示した書籍。
ランダムサンプリングしたつもりでも自己選択バイアス(ある選択をした者に共通する傾向。A大学とB大学の卒業率を比較する時、入学時の学生の特性そのものが異なるため慎重に比較検証すべき)や生存者バイアス(帰還した戦闘機から被弾箇所の傾向をみようとしない。致命的な場所に被弾した戦闘機は帰還しない)でデータはすでに偏っているかもしれない。
交絡因子(結果に影響する別の因子の偏り)が検証結果に影響を及ぼしているかも知れない(コーヒーを飲む者の癌になる確率は高いが、これは喫煙率が高いためで、コーヒーに発ガン性があるわけではない)。
自然選択の結果、人間はあらゆる事象に法則性を見いだしてしまう癖がついていることに由来する誤りもある。
平均への回帰はシンプルに確率の問題だが、何らかの意味があると勘違いしてしまう。
大数の法則の誤った解釈で、これまでの試行結果の偏りが次の独立した試行の結果に影響すると思い込んでしまう。単なるランダムな偏りにも人は法則性を見いだしてしまう。
これに加えて、研究者は新たな理論とその統計的に有意な検証を求める強いインセンティブがあり、都合の良いデータを求めてしまったり、データをこねくり回して何らかの(実際にはランダムな偏りの一つに過ぎない)法則性を見つけてしまったり、果ては捏造したりする。
受け手として留意すべきことは、不自然なデータの取り方は疑ってかかり、常識的におかしい説は疑い、理論を見つけたデータとは異なるランダムな新データで検証されたものを求めなければならない。
Posted by ブクログ
ビールの販売量が上がると結婚する人が増える。この手のとんでもない理論が巷をにぎわせていますが、それはただその街の人口が増えただけという。こんな例を使いながらデータの見方、騙されないための知識が解説してあります。後半はちょっと同じことの繰り返しになっていたかも。
Posted by ブクログ
様々な例がある。特に心理学ではあまり使われない経済の例があるので、株に興味がある人は読んだほうがいいかもしれない。
学部生がこの本を読んで自分の研究に使うか、ということは考えにくいが、一般の人が教養として読むのはいいであろう。原題はStandard Deviationsであり、日本で標準偏差、という言葉が本のタイトルとした場合には売れなかったであろう。
Posted by ブクログ
株価やアメリカ選挙、被弾された戦闘機などの統計をもとに、数字に盛られた、あるいは不足した観点を指摘する。数字にとって大切なのはその根拠にあり、説明の付かない事象には、説得力がない。
面白いと思ったのが、被弾を受けて生き残った戦闘機よりも、墜落した戦闘機の統計を採ることの意味が面白かったです。何となく上手くいっているからよりも、根拠に基づいて行動することの方が良い気もします。
Posted by ブクログ
統計の誤用について、実例を挙げながらの解説。
シニカルで個人攻撃っぽい内容なので好き嫌いが分かれそうだが、へーっと思うような例も多数あった。
理論なしにデータをあさって面白そうな関係を見つけ出すのもだめだし、データなしに理論だけがあってなんとなく正しそう、と思い込むのもダメ。そのとおり。
・400万部を売り上げて名著のほまれ高い「ビジョナリー・カンパニー2」や「エクセレント・カンパニー」も、執筆時点で偉大な会社を選び、それらに共通する特徴を抽出し、これこそが飛躍の法則だといっているが、実際は出版後の株価がインデックスを下回っているものが半分以上
・確率とは、計算という形態をとった常識にほかならない(ラプラス:計算するだけなら簡単だが、重要なのはそれが意味をなしているかどうか問いかけること)
・送電線の近くに住むとガンになりやすい、というのは疫学者ナンシー・ワルトハイマーによって広められた。ガンの患者が多い地区に共通するものを探して送電線を見つけた。その後、肯定的な追試も出たが800種類ものリスク因子との相関を見て小児白血病との関係を見つけ出すなど方法論上の問題が多いものであった。送電線の電磁気エネルギーは月光が放つものよりも遥かに弱く、その磁界は地球の磁界よりも弱い。起こりそうにもないことは、すでに起こったあとでは起こりそうもないことではなくなる。
・エリザベス・ターグは祈りによってエイズが治癒するという研究結果を発表し、これこそ神の存在を証明するものであると絶賛された。NIMHも予算150万ドルを投じて脳腫瘍でも同じ効果があるかどうかの研究が始まったが皮肉にもエリザベス自身が脳腫瘍になり、世界中から祈りが捧げられたにも関わらず4ヶ月後に亡くなった。しかし祈りの効果について、いくつかの研究が一流誌に掲載されているのは確かだ(Arch Intern Med 1999;159:2273-78)
Posted by ブクログ
統計はわからないのだが、インチキな統計の話を読むのは好きなのよねえ。しかしこの本は分量が多すぎて読みきれない。あきらめ。
- まぎらわしいデータ、あやしいグラフに注意
- 交絡因子をさがす
- テキサス狙撃兵に注意
- データが省略されてたら用心
- 理論なきデータもデータなき理論もだめ
Posted by ブクログ
「どんなデータでも、たとえランダムにつくったデータであっても、じっくり見れば必ずパターンは見えてくる。それがどんなに魅力的なパターンだったとしても、それを裏付ける理論が必要だ」
理論なきデータ、データなき理論に騙されないようにする。気をつけるのは、自己選択バイアス、生存者バイアス、交絡因子。