高柳慎一作品一覧

  • 統計的因果推論の理論と実装 潜在的結果変数と欠測データ
    5.0
    本書は,統計的因果推論の理論(数理的メカニズム)と実装(Rによる数値解析)の両方を統一的にカバーしたものである。具体的には,ハーバード大学統計学科のDonald B. Rubinの提唱した潜在的結果変数の枠組みによる統計的因果推論を扱う。また,データの一部が観測されない場合の因果推論も扱っており,これは類書にはほとんどみられない本書の特徴である。本書の数理的な理論解説は,できるだけ高校数学の範囲内で理解できるように工夫した。微積分や線形代数も,ほぼ登場しない。さらに,必要な数学的知識は,登場する箇所で解説を加えた。また,Rを使った数値計算により,数学が苦手な人にも統計的因果推論のメカニズムを理解してもらえるように工夫している。そして,数式とRコードとの対応関係をRの初心者も理解できるように,できるだけ1行ごとに完結するコードを書くよう心がけた。さらに,Rを使って統計的因果推論の実証研究を行うための実践的な内容も盛り込んでいる。本書の解析結果は,シミュレーション結果を除いて,すべて,本書の中に記載されているRコードを使って再現できるようにした。そして,本書で使用したデータはすべて,本書のサポートページからダウンロードして使用できるので,本書記載のRコードと一緒に活用することで,統計的因果推論を実践的に学ぶことができる。

    試し読み

    フォロー
  • 評価指標入門~データサイエンスとビジネスをつなぐ架け橋
    -
    「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと相関が高い評価指標を選んでいなかったために,KPIの推移を見てみると大した変化がありませんでした。 あるいは「毎日夜遅くまで残業をして,特徴量生成とクロスバリデーションによって評価指標を改善しました!」というデータサイエンティストがいたとします。ところが,KPIの改善のためには そこまで高い評価指標の値を達成する必要ありませんでした。このようなケースでは,データサイエンティストが費やした工数がすべて水の泡となってしまいます。----------(はじめにより)---------- このような状況が起きてしまう背景にはさまざまな原因が考えられますが,あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 機械学習モデルの”良し悪し”を決めるときには,評価指標(Evaluation Metrics)を必要とします。本質的に評価指標の設計方法は自由であり,ビジネス上の価値を考慮して自ら作成することも可能です。RMSEやAUCといったスタンダードなものから,ドメインに特化した数値まで,あらゆる指標が評価指標になりえます。では評価指標はどのように決めるのが良いのでしょうか。また,どのように決めれば冒頭のような悲しい状況を生まずに済むのでしょうか。 本書はこれらの疑問に答えるため,機械学習の良し悪しを決める評価指標を軸に,解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか,その原理を解説していきます。この原理が普遍的なものであれば,ビジネスがどんなものであっても応用できると考えることができます。 回帰,分類で使用するスタンダードな評価指標についても,基本から丁寧に解説します。本書を読むことで,どのようなケースでどの評価指標を選ぶべきかがわかり,評価指標の読み間違いを避けることができます。

最近チェックした本