検索結果

  • 前処理大全[データ分析のためのSQL/R/Python実践テクニック]
    4.3
    データサイエンスの現場において,その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで,予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR,Python,SQLを用いた実装方法を紹介しますので,複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
  • 評価指標入門~データサイエンスとビジネスをつなぐ架け橋
    -
    「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと相関が高い評価指標を選んでいなかったために,KPIの推移を見てみると大した変化がありませんでした。 あるいは「毎日夜遅くまで残業をして,特徴量生成とクロスバリデーションによって評価指標を改善しました!」というデータサイエンティストがいたとします。ところが,KPIの改善のためには そこまで高い評価指標の値を達成する必要ありませんでした。このようなケースでは,データサイエンティストが費やした工数がすべて水の泡となってしまいます。----------(はじめにより)---------- このような状況が起きてしまう背景にはさまざまな原因が考えられますが,あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 機械学習モデルの”良し悪し”を決めるときには,評価指標(Evaluation Metrics)を必要とします。本質的に評価指標の設計方法は自由であり,ビジネス上の価値を考慮して自ら作成することも可能です。RMSEやAUCといったスタンダードなものから,ドメインに特化した数値まで,あらゆる指標が評価指標になりえます。では評価指標はどのように決めるのが良いのでしょうか。また,どのように決めれば冒頭のような悲しい状況を生まずに済むのでしょうか。 本書はこれらの疑問に答えるため,機械学習の良し悪しを決める評価指標を軸に,解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか,その原理を解説していきます。この原理が普遍的なものであれば,ビジネスがどんなものであっても応用できると考えることができます。 回帰,分類で使用するスタンダードな評価指標についても,基本から丁寧に解説します。本書を読むことで,どのようなケースでどの評価指標を選ぶべきかがわかり,評価指標の読み間違いを避けることができます。
  • 因果推論入門~ミックステープ:基礎から現代的アプローチまで
    5.0
    因果推論とは,ある要因が何を(どれくらい)引き起こしたのかを判断するためのツールです。本書は,因果推論に関する最近までの進展をまとめ,学生や実務家を対象として,因果関係に関する意味のある回答を導き出すために必要な統計的手法を解説していきます。 本書の最大の特徴は,理論だけでなく,統計プログラミング言語(R,Stata)による実装を重視している点にあります。例題には,読者が利用できるデータとコードが添付されており,すぐに手を動かして実践することができます。本書は機械学習に関するトピックを含まない一方で,理論的な解説が詳細であるほか,DAGや合成コントロール法といった発展的なトピックを扱っています。これらのトピックは,近年の因果推論の理論的進展において重要ですが,入門レベルの書籍において解説している点で希少性があります。
  • 効果検証入門~正しい比較のための因果推論/計量経済学の基礎
    4.2
    ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,担当者はユーザの反応率を上げるために,反応しやすいであろうユーザに対してのみDMを発送します。ここで発生したデータでDMの効果を計る場合,単純にDMを受け取っているか否かで結果を比較することは,DMの効果以外にも意図的にリストされたユーザの興味や関心を含んでしまうことになります。 データが生まれるプロセスに人の意思が関わる場合,単純な集計では判断ミスとなる可能性があります。わずかな計算の狂いでも後々のビジネスにおいて大きな影響を及ぼすことになるため,バイアスのない状態で効果検証できることが望まれるのです。 本書では「単純に比較すると間違った結論に導くデータ」から,より正しい結果を導くための分析手法と考え方を提供します。計量経済学における効果とは何か? を提示し,RCT(ランダム化比較試験)がいかに理想的な方法かを説明し,RCTができない場合でも因果推論を用いてRCTの再現が可能だということを説明していきます。
  • 施策デザインのための機械学習入門~データ分析技術のビジネス活用における正しい考え方
    4.0
    予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザインする際に本来踏むべき手順を無視して予測精度の改善だけを追い求めると,「解くべき問題の誤設定」や「バイアス」といった落とし穴に気づかぬうちにハマってしまうのです。 この問題を解決するためには,機械学習のビジネス応用において必要となる前提条件を着実にクリアしなくてはなりません。しかし多くの現場では,「学習」や「予測精度」などに関する手法やテクニックのみに注目してしまう傾向があり,「機械学習にどのような問題を解かせるべきなのか」「実環境と観測データの間の乖離(バイアス)の問題にどのように対処すべきか」といった効果的なビジネス施策をデザインするために重要な観点が軽視されがちです。機械学習をビジネス施策に活かすための前提が整えられていないにもかかわらず,発展知識を身に付けたり論文の内容をそのまま実装したところで,望ましい結果を継続的に得ることは難しいのです。 本書では,ビジネス施策を自らの手で導くために必要な汎用的な考え方を身につけることを目指します。そのため本書ではまず,機械学習をビジネス現場で活用する際に本来踏まねばならないステップを明文化した汎用フレームワークを導入します。そしてその汎用フレームワークを活用しながら,効果的な施策を自らの手で導出する「施策デザイン」の流れを繰り返し体験します。これまで軽視されてきた「機械学習の威力を担保するために必要な前提のステップ」をフレームワークとして明文化し,データから施策を導くプロセスを自らデザインするという斬新なコンセプトで,ビジネスにおける変幻自在/臨機応変な機械学習の応用を可能にすることが,本書の最終目標です。
  • Pythonで学ぶ効果検証入門
    5/24入荷
    -
    ※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。 ※この電子書籍は紙版書籍のページデザインで制作した固定レイアウトです。 Pythonで効果検証の実務を学ぼう! この本は、効果検証を実務で行いたい方に向けた入門書です。 実務応用しやすい3つの分析手法(A/Bテスト・Difference in Differences (DID)・Regression Discontinuity Design (RDD))について、現場で実際にぶつかりやすい課題をミニストーリーなどで指摘しながら、その対応策や考えかたを示し、Pythonで実装していきます。 とくにA/Bテストについては多くの紙面を割き、複数のデザインパターンや分析手法を紹介します。 また、DIDとRDDについても、ミニストーリーなどを交えて適用できる条件を具体的に例示しつつ、間違った分析結果を算出してしまわないよう丁寧に解説を行います。 本書では、全体をとおして、ビジネスの現場で必要とされる知識と理論的な基礎との乖離に着目し、その乖離を埋めるような説明を心がけました。あくまで入門書であるため理論的な説明は控えめになっていますが、参考文献やブックガイドから、より専門的な論文や書籍にアクセスできるようにしています。 本書を読了することで、基本的な効果検証の手法を理解し、Pythonで実装できるようになります。さらに、陥りやすいアンチパターンや、効果検証を通じて組織に貢献するための考えかたなど、データ分析の実務者に必要とされる知見も身につきます。 謝辞/目次 1章 はじめに:いまなお隔たりがある効果検証の実務と理論  1.1 効果検証とはなにか?   1.1.1 本書のねらい:基礎と実務を紐づける   1.1.2 本書の特徴   1.1.3 効果検証の各手法の特性と使いかた   1.1.4 効果検証の目的:意思決定と探索的分析  1.2 本書の構成  1.3 想定する読者  1.4 サンプルコード 2章 A/Bテストを用いてクリーンに効果検証を行う  2.1 Prelude   2.1.1 太郎くんの分析の再現  2.2 施策と効果   2.2.1 基本的な用語の確認   2.2.2 施策効果と反実仮想  2.3 バイアス   2.3.1 バイアスを含んだ分析の例:ユーザーの性質   2.3.2 バイアスを含んだ分析の例:時系列   2.3.3 バイアスを含む分析手法の負のループ  2.4 A/Bテストの基本的な発想   2.4.1 ランダムな施策割当によるバイアスの排除   2.4.2 施策効果のポテンシャルアウトカムフレームワークによる表現  2.5 A/Bテストのデザイン   2.5.1 A/Bテストの設計   2.5.2 データ収集   2.5.3 収集したデータの分析と評価  2.6 PythonによるA/Bテストデータの分析の実装  2.7 A/Bテストのアンチパターン 3章 A/Bテストを用いて実務制約内で効果検証を行う  3.1 実務におけるA/Bテストの課題  3.2 A/Aテスト:A/Bテストの信頼性を担保する   3.2.1 A/Bテストは頻繁に「失敗」する   3.2.2 A/Bテストの失敗は2種類のケースに大別できる   3.2.3 A/Aテスト   3.2.4 A/Aテストのリプレイ  3.3 柔軟なA/Bテストのデザイン   3.3.1 クラスターA/Bテスト   3.3.2 層化A/Bテスト   3.3.3 A/Bテストにおける処置と割り当ての不一致  3.4 効率的な分析:共変量のコントロール  3.5 施策効果の異質性:どこで効果があるのか知る   3.5.1 セグメントごとにサブサンプルに分割する   3.5.2 セグメントの交差項を入れて分析を行う 4章 Difference in Differencesを用いて効果検証を行う  4.1 DID(差分の差法):施策実施前後の違いを捉える   4.1.1 施策をとりまく4つの状況とよくある分析の仮定   4.1.2 DIDの基本的な発想   4.1.3 DIDの発想に基づいた施策効果分析の実装  4.2 DIDを用いた実務的な施策効果検証   4.2.1 パネルデータ   4.2.2 分析方法   4.2.3 DIDによる施策効果分析の実装:文言変化の効果を調べる  4.3 2期間以上のデータをDIDで分析する   4.3.1 時間を通じて施策効果は変わりうる   4.3.2 分析方法   4.3.3 DIDによる施策効果分析の実装:イベントスタディのケース  4.4 パラレルトレンド仮定と検証   4.4.1 パラレルトレンド仮定の検証とは?   4.4.2 プレトレンドテスト  4.5 複数回の施策を行った場合にDIDによる分析は適用できるか? 5章 Regression Discontinuity Designを用いて効果検証を行う  5.1 RDDを適用できるシチュエーション   5.1.1 クーポン配布施策:クーポンの効果は本当に大きいのか?   5.1.2 閾値によって実施するかどうか決める施策の効果を評価する  5.2 RDDの仮定と推定   5.2.1 RDDの直感的な説明   5.2.2 RDDにおける施策効果   5.2.3 Sharp RDDの推定   5.2.4 rdrobustを用いたSharpRDDの実装   5.2.5 RDDの仮定が成り立たないケースとその検証法   5.2.6 McCraryの検定の実装   5.2.7 共変量のバランステストの実装  5.3 Fuzzy RDD:処置確率が閾値によって不連続に変化する場合のRDD   5.3.1 rdrobustを用いたFuzzy RDDの推定  5.4 内的妥当性と外的妥当性:我々はなにを推定しているのか?  5.5 bunchingの難しさ   5.5.1 操作が発生している例:所得税控除制度   5.5.2 bunchingの推定ステップと2つのケース 6章 おわりに:実務における課題と展望  6.1 これまでの振り返りと実務プロセスに合わせた分析手法の選択  6.2 分析プロセスの“不”可能性  6.3 データ分析実務者の役割   6.3.1 闇落ちするデータサイエンティスト   6.3.2 専門知識で意思決定を支える  6.4 効果検証の実務者のためのブックガイド   6.4.1 施策効果検証の発想を理解する   6.4.2 効果検証の発展的なトピックを学ぶ   6.4.3 計量経済学を学ぶ   6.4.4 実務として効果検証を実践する 著者・監修者略歴/参考文献/索引

    試し読み

    フォロー

最近チェックした本