検索結果

  • データ分析失敗事例集 失敗から学び、成功を手にする
    4.7
    【その分析、もう失敗しているかも…… 失敗を回避し、成功に近づくためのガイド】 本書は、第一線で活躍するデータサイエンティストたちが経験した、データ分析プロジェクトの「失敗」をもとに再構成された25の事例が収録されている。これらの臨場感あふれる事例から、データの活用に関わる人たちが、失敗を避けるために何をしてはならないのか、について学びとることができる。プロジェクトの失敗の予兆となる致命的な要因を察知し、失敗に至る「毒薬」を飲まないように注意するための知見が本書には随所に含まれている。 データの活用に関わる分析者、そして、分析を依頼する立場となる経営者や企画部、マーケティング部に所属する方々に送る、失敗から学び、成功への道筋を描くための必読書――失敗は成功の母である!
  • 効果検証入門~正しい比較のための因果推論/計量経済学の基礎
    4.2
    ビジネスで利用されるデータの多くは,その施策の意思決定を行う人物や組織の目的にそった活動の延長上で作られています。具体的には,DM送付などの広告施策であれば,担当者はユーザの反応率を上げるために,反応しやすいであろうユーザに対してのみDMを発送します。ここで発生したデータでDMの効果を計る場合,単純にDMを受け取っているか否かで結果を比較することは,DMの効果以外にも意図的にリストされたユーザの興味や関心を含んでしまうことになります。 データが生まれるプロセスに人の意思が関わる場合,単純な集計では判断ミスとなる可能性があります。わずかな計算の狂いでも後々のビジネスにおいて大きな影響を及ぼすことになるため,バイアスのない状態で効果検証できることが望まれるのです。 本書では「単純に比較すると間違った結論に導くデータ」から,より正しい結果を導くための分析手法と考え方を提供します。計量経済学における効果とは何か? を提示し,RCT(ランダム化比較試験)がいかに理想的な方法かを説明し,RCTができない場合でも因果推論を用いてRCTの再現が可能だということを説明していきます。
  • 評価指標入門~データサイエンスとビジネスをつなぐ架け橋
    -
    「評価指標でXXXという最高のスコアが出た!」と喜び勇んで,機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが,ビジネス上のKPIと相関が高い評価指標を選んでいなかったために,KPIの推移を見てみると大した変化がありませんでした。 あるいは「毎日夜遅くまで残業をして,特徴量生成とクロスバリデーションによって評価指標を改善しました!」というデータサイエンティストがいたとします。ところが,KPIの改善のためには そこまで高い評価指標の値を達成する必要ありませんでした。このようなケースでは,データサイエンティストが費やした工数がすべて水の泡となってしまいます。----------(はじめにより)---------- このような状況が起きてしまう背景にはさまざまな原因が考えられますが,あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。 機械学習モデルの”良し悪し”を決めるときには,評価指標(Evaluation Metrics)を必要とします。本質的に評価指標の設計方法は自由であり,ビジネス上の価値を考慮して自ら作成することも可能です。RMSEやAUCといったスタンダードなものから,ドメインに特化した数値まで,あらゆる指標が評価指標になりえます。では評価指標はどのように決めるのが良いのでしょうか。また,どのように決めれば冒頭のような悲しい状況を生まずに済むのでしょうか。 本書はこれらの疑問に答えるため,機械学習の良し悪しを決める評価指標を軸に,解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか,その原理を解説していきます。この原理が普遍的なものであれば,ビジネスがどんなものであっても応用できると考えることができます。 回帰,分類で使用するスタンダードな評価指標についても,基本から丁寧に解説します。本書を読むことで,どのようなケースでどの評価指標を選ぶべきかがわかり,評価指標の読み間違いを避けることができます。
  • 施策デザインのための機械学習入門~データ分析技術のビジネス活用における正しい考え方
    4.0
    予測に基づいた広告配信や商品推薦など,ビジネス施策の個別化や高性能化のために機械学習を利用することが一般的になってきています。その一方で,多くの機械学習エンジニアやデータサイエンティストが,手元のデータに対して良い精度を発揮する予測モデルを得たにもかかわらず,実際のビジネス現場では望ましい結果を得られないという厄介で不可解な現象に直面しています。実はこの問題は,機械学習の実践において本来必要なはずのステップを無視してしまうことに起因すると考えられます。機械学習を用いてビジネス施策をデザインする際に本来踏むべき手順を無視して予測精度の改善だけを追い求めると,「解くべき問題の誤設定」や「バイアス」といった落とし穴に気づかぬうちにハマってしまうのです。 この問題を解決するためには,機械学習のビジネス応用において必要となる前提条件を着実にクリアしなくてはなりません。しかし多くの現場では,「学習」や「予測精度」などに関する手法やテクニックのみに注目してしまう傾向があり,「機械学習にどのような問題を解かせるべきなのか」「実環境と観測データの間の乖離(バイアス)の問題にどのように対処すべきか」といった効果的なビジネス施策をデザインするために重要な観点が軽視されがちです。機械学習をビジネス施策に活かすための前提が整えられていないにもかかわらず,発展知識を身に付けたり論文の内容をそのまま実装したところで,望ましい結果を継続的に得ることは難しいのです。 本書では,ビジネス施策を自らの手で導くために必要な汎用的な考え方を身につけることを目指します。そのため本書ではまず,機械学習をビジネス現場で活用する際に本来踏まねばならないステップを明文化した汎用フレームワークを導入します。そしてその汎用フレームワークを活用しながら,効果的な施策を自らの手で導出する「施策デザイン」の流れを繰り返し体験します。これまで軽視されてきた「機械学習の威力を担保するために必要な前提のステップ」をフレームワークとして明文化し,データから施策を導くプロセスを自らデザインするという斬新なコンセプトで,ビジネスにおける変幻自在/臨機応変な機械学習の応用を可能にすることが,本書の最終目標です。
  • 前処理大全[データ分析のためのSQL/R/Python実践テクニック]
    4.3
    データサイエンスの現場において,その業務は「前処理」と呼ばれるデータの整形に多くの時間を費やすと言われています。「前処理」を効率よくこなすことで,予測モデルの構築やデータモデリングといった本来のデータサイエンス業務に時間を割くことができるわけです。本書はデータサイエンスに取り組む上で欠かせない「前処理スキル」の効率的な処理方法を網羅的に習得できる構成となっています。ほとんどの問題についてR,Python,SQLを用いた実装方法を紹介しますので,複数のプロジェクトに関わるようなデータサイエンスの現場で重宝するでしょう。
  • 改訂新版 前処理大全~SQL/pandas/Polars実践テクニック
    -
    【データ加工の技とモダンなコードで織りなすAwesomeな実践知識を厳選!】  BigQuery、Pandas、Polarsを使った実用的なモダン前処理を学びましょう!  データ分析において前処理が重要かつ多くの時間をとられる業務であることは広く知られてきました。同時に前処理を実現するためのライブラリは大きく改善されてきています。また、機械学習モデルの進化によって、求められる前処理の内容も変わってきています。本書は、初めて学ぶ方にも昔学んでから知識をアップデートしていない方にも、悪いサンプルコードと良いサンプルコードを紹介しながら丁寧にデータ分析の前処理を学べる技術書です。  本書は、第一版の前処理大全から大きく構成や内容を変更しています。SQLはBigQuery準拠に変更し、Pandasは最新バージョンの思想に沿い新機能を使ったコードに変更しました。Rの代わりにR同様にパイプラインで書きやすくかつ処理エンジンがRustベースで書かれているため高速なPolarsに変更しました。また、前処理内容も大きく変更し、より現在よく使われる処理を実用ケースとともに解説しています。また、新たな試みとしてコラムとして少しマニアックだけど役立つプログラムの裏側の解説や分析テクニックを紹介しており、中級者の方にとっても有用な知識をお届けしています。 ■こんな方におすすめ データ処理業務に従事するエンジニア、データ分析者 ■目次 ●Part1 前処理の基礎知識   第1章 前処理とは   第2章 SQL   第3章 pandas   第4章 Polars ●Part2 データの構造を対象とした前処理   第5章 抽出   第6章 集約   第7章 結合   第8章 分割   第9章 整形 ●Part3 データの内容を対象とした前処理   第10章 数値   第11章 カテゴリ   第12章 日時   第13章 文字列   第14章 ウィンドウ関数 ●Part4 実践前処理   第15章 演習問題 ■著者プロフィール 本橋智光(モトハシトモミツ):SIerの研究員、Web系企業の分析者を経て、SUSMEDのCTO。株式会社ホクソエムのメンバーでもある。基盤・Webアプリ・機械学習・数理最適化等幅広くこなす。最近の好きなプログラミング言語はRust。 橋本秀太郎(ハシモトシュウタロウ):北海道大学 大学院情報科学研究科 博士後期課程修了。博士(情報科学)。大学院修了後はSIerでデータ分析関連の研究開発やコンサルティングに従事。現在は国内でも有数の膨大なデータを持つインターネット企業に勤め、データサイエンスチームのリードとして、日々サービスグロースのためのデータ分析を行う。

最近チェックした作品からのおすすめ