検索結果

  • 効果検証入門~正しい比較のための因果推論/計量経済学の基礎
    4.2
    ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,担当者はユーザの反応率を上げるために,反応しやすいであろうユーザに対してのみDMを発送します。ここで発生したデータでDMの効果を計る場合,単純にDMを受け取っているか否かで結果を比較することは,DMの効果以外にも意図的にリストされたユーザの興味や関心を含んでしまうことになります。 データが生まれるプロセスに人の意思が関わる場合,単純な集計では判断ミスとなる可能性があります。わずかな計算の狂いでも後々のビジネスにおいて大きな影響を及ぼすことになるため,バイアスのない状態で効果検証できることが望まれるのです。 本書では「単純に比較すると間違った結論に導くデータ」から,より正しい結果を導くための分析手法と考え方を提供します。計量経済学における効果とは何か? を提示し,RCT(ランダム化比較試験)がいかに理想的な方法かを説明し,RCTができない場合でも因果推論を用いてRCTの再現が可能だということを説明していきます。
  • 施策デザインのための機械学習入門~データ分析技術のビジネス活用における正しい考え方
    4.0
    予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザインする際に本来踏むべき手順を無視して予測精度の改善だけを追い求めると,「解くべき問題の誤設定」や「バイアス」といった落とし穴に気づかぬうちにハマってしまうのです。 この問題を解決するためには,機械学習のビジネス応用において必要となる前提条件を着実にクリアしなくてはなりません。しかし多くの現場では,「学習」や「予測精度」などに関する手法やテクニックのみに注目してしまう傾向があり,「機械学習にどのような問題を解かせるべきなのか」「実環境と観測データの間の乖離(バイアス)の問題にどのように対処すべきか」といった効果的なビジネス施策をデザインするために重要な観点が軽視されがちです。機械学習をビジネス施策に活かすための前提が整えられていないにもかかわらず,発展知識を身に付けたり論文の内容をそのまま実装したところで,望ましい結果を継続的に得ることは難しいのです。 本書では,ビジネス施策を自らの手で導くために必要な汎用的な考え方を身につけることを目指します。そのため本書ではまず,機械学習をビジネス現場で活用する際に本来踏まねばならないステップを明文化した汎用フレームワークを導入します。そしてその汎用フレームワークを活用しながら,効果的な施策を自らの手で導出する「施策デザイン」の流れを繰り返し体験します。これまで軽視されてきた「機械学習の威力を担保するために必要な前提のステップ」をフレームワークとして明文化し,データから施策を導くプロセスを自らデザインするという斬新なコンセプトで,ビジネスにおける変幻自在/臨機応変な機械学習の応用を可能にすることが,本書の最終目標です。
  • 評価指標入門~データサイエンスとビジネスをつなぐ架け橋
    -
    「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと相関が高い評価指標を選んでいなかったために,KPIの推移を見てみると大した変化がありませんでした。 あるいは「毎日夜遅くまで残業をして,特徴量生成とクロスバリデーションによって評価指標を改善しました!」というデータサイエンティストがいたとします。ところが,KPIの改善のためには そこまで高い評価指標の値を達成する必要ありませんでした。このようなケースでは,データサイエンティストが費やした工数がすべて水の泡となってしまいます。----------(はじめにより)---------- このような状況が起きてしまう背景にはさまざまな原因が考えられますが,あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 機械学習モデルの”良し悪し”を決めるときには,評価指標(Evaluation Metrics)を必要とします。本質的に評価指標の設計方法は自由であり,ビジネス上の価値を考慮して自ら作成することも可能です。RMSEやAUCといったスタンダードなものから,ドメインに特化した数値まで,あらゆる指標が評価指標になりえます。では評価指標はどのように決めるのが良いのでしょうか。また,どのように決めれば冒頭のような悲しい状況を生まずに済むのでしょうか。 本書はこれらの疑問に答えるため,機械学習の良し悪しを決める評価指標を軸に,解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか,その原理を解説していきます。この原理が普遍的なものであれば,ビジネスがどんなものであっても応用できると考えることができます。 回帰,分類で使用するスタンダードな評価指標についても,基本から丁寧に解説します。本書を読むことで,どのようなケースでどの評価指標を選ぶべきかがわかり,評価指標の読み間違いを避けることができます。
  • 前処理大全[データ分析のためのSQL/R/Python実践テクニック]
    4.1
    データサイエンスの現場において,その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで,予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR,Python,SQLを用いた実装方法を紹介しますので,複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。

最近チェックした本