あらすじ
※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。
データサイエンスは、ビジネスのあらゆる現場で役立つスキルです。たとえば需要予測。日々の販売計画を精緻化することは、業務の無駄をなくし、広い視点では大量廃棄などの課題解決にも役立ちます。また、ECサイトに欠かせないレコメンデーションシステム。おすすめの商品を高い精度で提案してくれるシステムによって、顧客の利便性が高まり、同時に売上アップにもつながります。ほかにもデータサイエンスが基礎となっている仕組みは数多く存在します。いまや人々の生活に欠かせなくなったAIなどの技術もデータサイエンスの一分野です。
このようにデータサイエンスは、「データサイエンティスト」などの専門職だけが知っておけば足りる知識ではなく、あまねくビジネスパーソンが知っておくべき知識であり、スキルなのです。本書ではこのデータサイエンスを、ビジネス実務を題材に、難しい話なしで解説しています。また、データをどのように扱うか実感できるようにExcelファイルを用意してあります。座学+実践でしっかり腑に落ちるデータサイエンス入門書の決定版です。
感情タグBEST3
Posted by ブクログ
データサイエンスにより売上、コスト、リスクの改善に寄与。
データサイエンスの守備範囲(複雑度 高~低) = 意思決定の自動化・最適化 / 将来の事象を予測 / 因果関係を定量的に把握 / 事象の関係性を定量的に把握 / 過去や現状の定量的把握
統計学:時系列分析、推計統計、記述統計
機械学習:教師あり学習、教師なし学習
レコメンデーションと数理最適化
データサイエンス手法:集計、可視化、記述統計、、教師あり学習(回帰問題)、教師あり学習(分類問題)、ディープラーニングによる画像解析、教師なし学習、レコメンデーション、最適化
画像解析による活用例:Object Detection(物体検出)、Pose Estimation(姿勢推定)、Style Transfer(画風変換)
レコメンデーションエンジンの2通りのアプローチ:ユーザーベース、アイテムベース、類似度(ベクトルの角度)を計算し商品を推薦
最適化=変数によって動く決められた目的関数を最大化(最小化)すること
記述統計でデータの傾向をつかむ:平均値、中央値、分散・標準偏差、最大値・最小値
平均値はデータの重心、極端に大きい値に影響を受けやすい
中央値は順位が中央である値で、極端な値に影響を受けにくい
分散は平均を中心にしたデータのばらつき、ただしデータを2乗して求めるので、さらにルートして戻した標準偏差を使う
Excel関数では、Average(),Median(),Var.s(),Stdev.s(),max(),min(),correl()
5つの可視化手法:ヒストグラム、棒グラフ、ヒートマップ、離散図、相関行列(相関係数)
可視化の対象となる値は2種類、連続変数か、カテゴリカル変数(離散変数)
ヒストグラム=連続変数の分布を見たいとき
棒グラフ=カテゴリカル変数におけるカテゴリ間の値の大小の比較
折れ線グラフ=時間による推移
ヒートマップ=行列型で特徴を把握(2次元のデータ)
散布図=2つの連続変数の傾向を把握する
相関係数が+1または-1に近づいていくほど相関が高い、0に近いと相関が低い
相関行列=対象とするすべての連続変数に対してすべての組み合わせにて計算される相関係数を行列の形で表したもの
データサイエンス用語4つ:目的変数=学習・予測対象とするデータ、特徴量=インプットデータとして定義する目的変数の特徴を定量化した数値、モデル=インプットである特徴量からアウトプットである目的変数への変換器、目的関数=特徴量をモデルに入れた際に算出される予測値と目的変数である実測値の差分
モデルの精度を高めるためのアプローチ:データ量を増やす、特徴量を増やす、モデルを複雑にする
回帰問題で使えるモデル:線形回帰モデル(単回帰分析、重回帰分析)、Ridge回帰、Lasso回帰、Elastic Net、決定木、ランダムフォレスト、SVM、ニューラルネットワーク、時系列モデル
分類問題の基本手法=ロジスティック回帰モデル