【感想・ネタバレ】データサイエンス入門のレビュー

\ レビュー投稿でポイントプレゼント / ※購入済みの作品が対象となります
レビューを書く

感情タグBEST3

Posted by ブクログ 2024年04月03日

データサイエンス入門
著:竹村 彰通
岩波新書 新赤版 1713

アメリカの主な大学には統計学科が存在する。中国でも最近は同様の状況である
これに対して、日本の大学には統計学部や統計学科がなかった。
日本におけるデータサイエンティスト育成には、初等中等教育における統計教育やデータサイエンス教育の充...続きを読む実からはじまって企業内人材の再教育まで、あらゆるレベルの教育が必要である。

ビッグデータと統計について、広く紹介する書と理解しました

気になったのは、以下です。

■ビッグデータの時代

・データサイエンスの3要素とは、①データ処理、②データ分析、③価値創造 である
・科学的研究のパラダイム
 第1)自然を経験的に理解する研究方法 天動説
 第2)理論と実験との組み合わせによる研究方法 ニュートン力学
 第3)コンピュータの発展によるシミュレーションよる研究方法
 第4)ビッグデータから新たな、科学的発見を見出す研究方法 データ中心科学、データ駆動型化学

・2つの通信技術 高速な5Gと、低速なLPWA(IoT向け)

・データサイエンティストの台頭の背景
  データ処理とデータ分析手法の進展
  機械学習や人工知能の進展
  ⇒質の良いデータが大量に得られるいることが条件

・ビッグデータを支えるのは、大数の法則

・フィッシャー 統計的モデル 正規分布などの確率分布をもちいて、データのばらつきや誤差を定型化する手法 データにあうパラメタを選ぶことをパラメタの推定とよび、機械学習では、モデルの学習という

・フィッシャー 実験計画法 

・日本では工業製品の品質向上に、統計的管理や、実験計画法がつかわれた

■データとは何か

・時間をおって計測されるデータ 時系列データ
・1時点でさまざまな個体に関して得られたデータ クロスセクションデータ
・表計算ソフトのシートに入力、整理できるデータ 構造化データ
・テキスト、音声、画像、動画 シートに入力できないデータ 非構造化データ

・非構造化データは、生のままでは処理できないので、元のデータから特徴のある数値を求めるか、決めなければならない

・データの中で不要と考えられ部分 ⇒ ノイズ
・データの中に含まれる傾向やパターン ⇒ シグナル

・観測しにくいデータを観測するには、コストがかかるが、そのコストに見合うだけの価値があるかが問題

・ウェブページのA/Bテスト デザインA、デザインBの2つを用意して、デザインをランダムに表示することで、どちらがクリック率がいいかなどのテストをするもの インターネットマーケッティングの代表的手法

・データのばらつき ⇒ ヒストグラムで表したもの分布、その曲線を密度関数、確率密度関数という

・2変数間の傾向 ⇒ 相関 ⇒ 直線であらわしたもの 回帰直線 ⇒ 回帰

・予測を目的として統計的モデルをたてること 予測的モデリング という

・人を層別に分類することを、セグメンテーションという
・さらに個人ベースまで細分化すること パーソナライゼーションという

・不確実性を扱う理論 確率論
 ⇒起こりうる結果が最初から網羅されている
 ⇒それぞれの結果の確率が与えられている の2条件がなり立てば有効

・大量のデータ解析から何らかの有用な知見が得られられないかを探索することを、データマイニングという

■データに語らせる

・BIツールで、データを可視化したら、地図データと組み合わせて表示する

・データを分析する前に、整理する作業を、データクレジングという
 データの表記の揺れ 2021/1/1、2021年1月1日 などを書式統一すること
 異常値、外れ値の排除
 欠測値 データがはいっていない
 項目の定義の変更 など

・データの分析、モデリング
 回帰分析
 判別分析
 クラスタ分析

・機械学習 目的変数がある場合を、教師あり学習といい、ない場合を、教師なし学習という

・分析ツール エクセルをはじめ、R,SAS,Python
・ビッグデータの処理 Hadoop 分散処理フレームワーク
・非構造化DB NoSQL

・深層学習 DNN 深層学習用のマイクロプロセッサ NVIDIAが出しているGPU
 現在の深層機械学習をつかった、AIの中心である

目次

はじめに

Ⅰ ビッグデータの時代
 1 データサイエンスの登場
 2 台頭するデータサイエンティスト
 3 統計学の流れ
 4 コンピュータとインターネットの発展

Ⅱ データとは何か
 1 定義と種類
 2 コストと価値
 3 ばらつきと分布
 4 相関と因果、回帰
 5 データに基づく意思決定と不確実性
 6 取り扱い上の倫理

Ⅲ データに語らせる──発見の科学へ向けたスキル
 1 データサイエンスのスキルの学び方
 2 データ処理と可視化
 3 データの分析とモデリング
 4 ビッグデータの処理と分析
 5 人工知能とデータサイエンス

付録1 統計学の歴史の概要
付録2 コンピュータの歴史の概要
おわりに
あとがき
参考文献

ISBN:9784004317135
出版社:岩波書店
判型:新書
ページ数:192ページ
定価:880円(本体)
発売日:2018年04月20日第1刷

0

Posted by ブクログ 2021年03月28日

研究主任など,データを分析しないといけないポジションの人は読んでみると良いかなと思います。
多くの学校の校内研究に欠けている視点が見えてきます。

データサイエンスの専門的な内容というより,
「データを分析するってこういうこと」
ということがわかる本です。

難解だという意見もあるようですが,僕には...続きを読む難しく感じませんでした。

0

Posted by ブクログ 2018年06月12日

データサイエンスの入門書。「入門」と言っても、データサイエンスを学ぶ人が最初に読むべき内容というより、データサイエンスをよく知らない人間がどのような領域を対象にどのような役割を果たしどのような手法が活用されているか見通すための概要書というべきか。著者は滋賀大学のデータサイエンス学部の立ち上げに学部長...続きを読むとして寄与した統計学者。図表やまとめがあると分かりやすいと思うのだが、岩波新書ならではの趣きもあってそれはそれで良いのかも。アカデミアの人ならではの広い視野と知見が随所に散りばめられ、今ちょうど話題のGDPRを含めてデータの処理や分析にまつわる諸々の問題点を広く触れています。特にEBMや各種バイアスなどの実例の話はとても参考になりました。

0

Posted by ブクログ 2018年04月21日

数理統計学の大御所が書いたデータサイエンスのガイダンス書。著者のバックグラウンドを考えると統計学的な観点からの議論がメインなのだろうと思っていたら、そんなことはなく、現代のデータサイエンスについてとても広範かつバランスよく書かれていて、読んで勉強になった。また、データサイエンスに馴染みのない人にでも...続きを読むとっつきやすい内容になっていて、とても価値ある一冊だと思った。

0

Posted by ブクログ 2023年09月01日

なぜ読もうと思ったのか
・データサイエンスという言葉の意味を知りたかった
・調査項目やデータ分析設計に携わる機会があり、データとは何かを改めて知りたかった

・データサイエンスの基礎は「情報学」と「統計学」+「数学」。基礎の学び方は講義を聞いたり本をじっくり読むなど伝統的なやり方が良い。基礎に関して...続きを読むは『統計検定2級』の受講も効果的
・データサイエンスを情報学、統計学、価値創造の3つの要素を統合する分野と位置付ける。

感想
・データサイエンスとは何かといった概要を知れる本。実用書ではない。
・統計に仕事で携わっているが、統計の歴史については無知であった。統計の起源や日本での統計調査の歴史を知れ、通常の仕事に深みが出そう。

0

Posted by ブクログ 2022年01月05日

データサイエンスについて今勉強していて、授業だと背景や他の分野とのつながり、体系的に学ぶためにも本を読もうと思って読んでみた。統計の基礎的な復習にもなったし、データサイエンスで何ができるかを知ることができた。データの取り方に、バイアスがないかや、そもそも正しいデータかなどデータを扱う際の注意点も知る...続きを読むことができた。データサイエンスが今後ビジネスなどで重要になるらしいので、データを見て分析できるような力をさらに勉強して身につけたい。

0

Posted by ブクログ 2020年03月02日

120ページあたりから急に全くついていけなくなる。
プログラムの固有名詞とプログラミング関係の用語羅列で思考停止に陥る。
まあ、そんなんだから、紙の本を求めるわけですが。

0

Posted by ブクログ 2018年09月22日

データとどう向き合っていくかを考える入門書。ただし、データがこれまでどのように使われてきたのかリアルタイムで過ごしてきた世代と、smart phoneがすでに発達した世代では、読んだ時の印象が違うかもしれない。

0

Posted by ブクログ 2018年07月10日

本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理され、この本のような教...続きを読む科書されるまでに形成されたのが、近年のデータサイエンス分野といえる。この分野では、データ処理には情報学(コンピュータ科学)、データの分析には統計学、またデータから価値を引き出すためにはそれぞれの応用分野といった領域を理解・習熟することが求められる。この3方向からのスキル習得や知識の理解を気に留めたい。

またエビデンスに基づく意思決定という考え方は、わりと一般化している印象があるが、対する事例・エピソードに基づくそれを意識することも、一つの仕事や研究に対するアプローチ方法として有用だと思った。ただし「一部の成功例が強調され過ぎたり、失敗例が報告されないようなバイアスが生じ得る」(p.83)可能性もあるので、報告者の倫理感が必須となろう。「データに基づく判断をベースとして、人間の経験と勘に基づく判断も活かす」(p.90)ことが、実務の場での理想的な判断の仕方だと思った。

0

Posted by ブクログ 2018年06月10日

本書のタイトルにある「データサイエンス」って何?と思い、読んでみました。
本書では「データサイエンスとは情報学、統計学、価値創造の3つの要素を統合する分野」として解説。

スマホを携帯して移動したり、お店で品物を購入する際にポイントカードを提示したりしながら、便利さやポイント還元などと引き換えに無意...続きを読む識にビッグデータの元を提供していたことに改めて気付いた。

統計学は昔からある学問だし、学校や会社で学ぶ機会もあったので、Ⅱ章「データとは何か」はとても分かりやすかった。

Ⅲ章「データに語らせる -発見の科学へ向けたスキル」はコンピュータや情報学に明るくないので、やや難解だった。

ビッグデータやAIの進歩で新しい学問分野が生まれ、時代は変わったなぁ、と実感した。

0

Posted by ブクログ 2021年05月16日

データの見方及びデータサイエンスの動向を理解したい人におすすめ

【概要】
●データサイエンスとは、データサイエンティストとは何か。
●データサイエンスの3要素は、データ処理、データ分析及び価値創造
●データ処理には情報学、データ分析には統計学が必要
●データには、主にテキストデータ、音声データ、画...続きを読む像データがある。

【感想】
●人工知能が発展している世の中であっても、人間は統計学を学ぶ必要があると思った。
 結局は、人工知能が出した答えの良し悪しを客観的に判断した上で意思決定をおこなうのは人間だからである。
 人工知能に責任を負わせることの問題をどう解決するかが進まない限り、このような状況は変わることはないだろう。

0

Posted by ブクログ 2020年10月21日

文系の私には内容が難解でしたが、データがどのように私達の生活の中で使用されているのか知る事ができた。

データを集めて解析を行えば、仮説に基づくデータを得る事ができると思っていたが、その集めたデータについても考慮しなければいけないという事に気付かされた。

今後、ビックデータの活用が飛躍的に進んでい...続きを読むけばデータサイエンティストは必要なくなる可能性がある。
そのデータをどのように活用していくのかを考える能力がデータサイエンティストに残された道になるのかも知れない。

0

Posted by ブクログ 2018年12月30日

1.この本を一言で表すと?
・数学など専門的な話にはあまり立ち入らず、データ分析の重要性や分析手法などを一般の人にもわかりやすく説明
した本
2.よかった点を 3〜5 つ
・公表バイアス、確証バイアス、後知恵バイアスの話
→よくある話なので読み手が注意すべき所
・エビデンスに基づく意思決定
→「学力...続きを読むの経済学」という本で教育に関する EB を論じていたが、この考え方は日本にもっと取り入れられるべき
だと思う。
・データ処理と可視化
→SQL とはどういうものかよくわかった。
・現在の人工知能技術はビッグデータと表裏一体であり、データに基づく適切な意思決定を支えるという意味でのデ
ータサイエンスは今後もしばらくは重要な分野(p135)
→データサイエンスはあくまでも意思決定のサポートであるということが重要なこと
3.参考にならなかった所(つっこみ所)
・「人工知能」=「深層学習」という呼び方は適切ではない(p132)
→違うのか?
5.全体の感想・その他
・現代のデータサイエンスについてバランスよく書かれているのがよい

0

Posted by ブクログ 2018年09月01日

ほんとうに入門のための本です。概括的な紹介に留まり深堀はしてないのですが、専門外のひとに概要を理解してもらうために紹介するのはありかもと思いました。

0

Posted by ブクログ 2018年07月13日

総合研究大学院大学 複合科学研究科統計科学専攻
滋賀大学が日本初のデータサイエンス学部を開設
横浜市大も2018年4月に開設。

中心極限定理を実感できるゴルトンボード

深い穴は掘れない。地殻は30キロ程度、穴はせいぜい10キロ程度。それ以上は熱と圧力で掘れない。飛行機は1万メートルは普通の高さ。...続きを読む

データマインニング=何か有用な知見が得られないか探索すること。

オンライン講座MOOCのgacco.orgの統計学1,2
日本統計学会 統計学3
総務省統計局のデータサイエンスの3つの講座、
滋賀大学 高校生のためのデータサイエンス入門

統計検定2級と準1級。

データ解析コンペディション 英語ではkaggle.com
オプトホールディング社

RSTUDIO、
プログラミング言語Python

0

Posted by ブクログ 2018年06月17日

2017年7月22日のNHKスペシャルで「健康になりたければ病院を減らせ」とAIが提言し、著者は全く根拠がないとしているが、財政破綻して病院を減らした旭川市で根拠があると思う。

0

Posted by ブクログ 2018年05月18日

データサイエンスの詳細な説明というよりは、統計、インターネット、PCの説明である。
 もっとデータサイエンスを中心に説明して欲しかったが、滋賀大学でのデータサイエンス学部を持っているので、多くの分野での説明となってしまった。

0

「ビジネス・経済」ランキング