ブックライブでは、JavaScriptがOFFになっているとご利用いただけない機能があります。JavaScriptを有効にしてご利用ください。
無料マンガ・ラノベなど、豊富なラインナップで100万冊以上配信中!
来店pt
閲覧履歴
My本棚
カート
フォロー
クーポン
Myページ
4pt
ビッグデータの時代だ。さまざまな分野の研究がデータ駆動型に変わってきている。ビジネスでのビッグデータ利用も人工知能の開発とあいまって盛んだ。データの処理・分析に必要な情報学(コンピュータ科学)と統計学の基本知識をおさえ、またデータから新たな価値を引き出すスキルの学び方を紹介する。待望の入門書。
ブラウザ試し読み
アプリ試し読みはこちら
※アプリの閲覧環境は最新バージョンのものです。
Posted by ブクログ
データサイエンス入門 著:竹村 彰通 岩波新書 新赤版 1713 アメリカの主な大学には統計学科が存在する。中国でも最近は同様の状況である これに対して、日本の大学には統計学部や統計学科がなかった。 日本におけるデータサイエンティスト育成には、初等中等教育における統計教育やデータサイエンス教育の充...続きを読む実からはじまって企業内人材の再教育まで、あらゆるレベルの教育が必要である。 ビッグデータと統計について、広く紹介する書と理解しました 気になったのは、以下です。 ■ビッグデータの時代 ・データサイエンスの3要素とは、①データ処理、②データ分析、③価値創造 である ・科学的研究のパラダイム 第1)自然を経験的に理解する研究方法 天動説 第2)理論と実験との組み合わせによる研究方法 ニュートン力学 第3)コンピュータの発展によるシミュレーションよる研究方法 第4)ビッグデータから新たな、科学的発見を見出す研究方法 データ中心科学、データ駆動型化学 ・2つの通信技術 高速な5Gと、低速なLPWA(IoT向け) ・データサイエンティストの台頭の背景 データ処理とデータ分析手法の進展 機械学習や人工知能の進展 ⇒質の良いデータが大量に得られるいることが条件 ・ビッグデータを支えるのは、大数の法則 ・フィッシャー 統計的モデル 正規分布などの確率分布をもちいて、データのばらつきや誤差を定型化する手法 データにあうパラメタを選ぶことをパラメタの推定とよび、機械学習では、モデルの学習という ・フィッシャー 実験計画法 ・日本では工業製品の品質向上に、統計的管理や、実験計画法がつかわれた ■データとは何か ・時間をおって計測されるデータ 時系列データ ・1時点でさまざまな個体に関して得られたデータ クロスセクションデータ ・表計算ソフトのシートに入力、整理できるデータ 構造化データ ・テキスト、音声、画像、動画 シートに入力できないデータ 非構造化データ ・非構造化データは、生のままでは処理できないので、元のデータから特徴のある数値を求めるか、決めなければならない ・データの中で不要と考えられ部分 ⇒ ノイズ ・データの中に含まれる傾向やパターン ⇒ シグナル ・観測しにくいデータを観測するには、コストがかかるが、そのコストに見合うだけの価値があるかが問題 ・ウェブページのA/Bテスト デザインA、デザインBの2つを用意して、デザインをランダムに表示することで、どちらがクリック率がいいかなどのテストをするもの インターネットマーケッティングの代表的手法 ・データのばらつき ⇒ ヒストグラムで表したもの分布、その曲線を密度関数、確率密度関数という ・2変数間の傾向 ⇒ 相関 ⇒ 直線であらわしたもの 回帰直線 ⇒ 回帰 ・予測を目的として統計的モデルをたてること 予測的モデリング という ・人を層別に分類することを、セグメンテーションという ・さらに個人ベースまで細分化すること パーソナライゼーションという ・不確実性を扱う理論 確率論 ⇒起こりうる結果が最初から網羅されている ⇒それぞれの結果の確率が与えられている の2条件がなり立てば有効 ・大量のデータ解析から何らかの有用な知見が得られられないかを探索することを、データマイニングという ■データに語らせる ・BIツールで、データを可視化したら、地図データと組み合わせて表示する ・データを分析する前に、整理する作業を、データクレジングという データの表記の揺れ 2021/1/1、2021年1月1日 などを書式統一すること 異常値、外れ値の排除 欠測値 データがはいっていない 項目の定義の変更 など ・データの分析、モデリング 回帰分析 判別分析 クラスタ分析 ・機械学習 目的変数がある場合を、教師あり学習といい、ない場合を、教師なし学習という ・分析ツール エクセルをはじめ、R,SAS,Python ・ビッグデータの処理 Hadoop 分散処理フレームワーク ・非構造化DB NoSQL ・深層学習 DNN 深層学習用のマイクロプロセッサ NVIDIAが出しているGPU 現在の深層機械学習をつかった、AIの中心である 目次 はじめに Ⅰ ビッグデータの時代 1 データサイエンスの登場 2 台頭するデータサイエンティスト 3 統計学の流れ 4 コンピュータとインターネットの発展 Ⅱ データとは何か 1 定義と種類 2 コストと価値 3 ばらつきと分布 4 相関と因果、回帰 5 データに基づく意思決定と不確実性 6 取り扱い上の倫理 Ⅲ データに語らせる──発見の科学へ向けたスキル 1 データサイエンスのスキルの学び方 2 データ処理と可視化 3 データの分析とモデリング 4 ビッグデータの処理と分析 5 人工知能とデータサイエンス 付録1 統計学の歴史の概要 付録2 コンピュータの歴史の概要 おわりに あとがき 参考文献 ISBN:9784004317135 出版社:岩波書店 判型:新書 ページ数:192ページ 定価:880円(本体) 発売日:2018年04月20日第1刷
研究主任など,データを分析しないといけないポジションの人は読んでみると良いかなと思います。 多くの学校の校内研究に欠けている視点が見えてきます。 データサイエンスの専門的な内容というより, 「データを分析するってこういうこと」 ということがわかる本です。 難解だという意見もあるようですが,僕には...続きを読む難しく感じませんでした。
データサイエンスの入門書。「入門」と言っても、データサイエンスを学ぶ人が最初に読むべき内容というより、データサイエンスをよく知らない人間がどのような領域を対象にどのような役割を果たしどのような手法が活用されているか見通すための概要書というべきか。著者は滋賀大学のデータサイエンス学部の立ち上げに学部長...続きを読むとして寄与した統計学者。図表やまとめがあると分かりやすいと思うのだが、岩波新書ならではの趣きもあってそれはそれで良いのかも。アカデミアの人ならではの広い視野と知見が随所に散りばめられ、今ちょうど話題のGDPRを含めてデータの処理や分析にまつわる諸々の問題点を広く触れています。特にEBMや各種バイアスなどの実例の話はとても参考になりました。
数理統計学の大御所が書いたデータサイエンスのガイダンス書。著者のバックグラウンドを考えると統計学的な観点からの議論がメインなのだろうと思っていたら、そんなことはなく、現代のデータサイエンスについてとても広範かつバランスよく書かれていて、読んで勉強になった。また、データサイエンスに馴染みのない人にでも...続きを読むとっつきやすい内容になっていて、とても価値ある一冊だと思った。
なぜ読もうと思ったのか ・データサイエンスという言葉の意味を知りたかった ・調査項目やデータ分析設計に携わる機会があり、データとは何かを改めて知りたかった ・データサイエンスの基礎は「情報学」と「統計学」+「数学」。基礎の学び方は講義を聞いたり本をじっくり読むなど伝統的なやり方が良い。基礎に関して...続きを読むは『統計検定2級』の受講も効果的 ・データサイエンスを情報学、統計学、価値創造の3つの要素を統合する分野と位置付ける。 感想 ・データサイエンスとは何かといった概要を知れる本。実用書ではない。 ・統計に仕事で携わっているが、統計の歴史については無知であった。統計の起源や日本での統計調査の歴史を知れ、通常の仕事に深みが出そう。
データサイエンスについて今勉強していて、授業だと背景や他の分野とのつながり、体系的に学ぶためにも本を読もうと思って読んでみた。統計の基礎的な復習にもなったし、データサイエンスで何ができるかを知ることができた。データの取り方に、バイアスがないかや、そもそも正しいデータかなどデータを扱う際の注意点も知る...続きを読むことができた。データサイエンスが今後ビジネスなどで重要になるらしいので、データを見て分析できるような力をさらに勉強して身につけたい。
120ページあたりから急に全くついていけなくなる。 プログラムの固有名詞とプログラミング関係の用語羅列で思考停止に陥る。 まあ、そんなんだから、紙の本を求めるわけですが。
データとどう向き合っていくかを考える入門書。ただし、データがこれまでどのように使われてきたのかリアルタイムで過ごしてきた世代と、smart phoneがすでに発達した世代では、読んだ時の印象が違うかもしれない。
本書は表題のとおり、データサイエンスの入門書である。とても読みやすい文体でそう時間をかけずに一読することができた。洋の東西を問わず膨大な知が蓄積され、体系化され、ディシプリンとして確立し、欧米の大学のケースを参照し、日本の大学にも学部・学科という教育組織が誕生し、教育内容も整理され、この本のような教...続きを読む科書されるまでに形成されたのが、近年のデータサイエンス分野といえる。この分野では、データ処理には情報学(コンピュータ科学)、データの分析には統計学、またデータから価値を引き出すためにはそれぞれの応用分野といった領域を理解・習熟することが求められる。この3方向からのスキル習得や知識の理解を気に留めたい。 またエビデンスに基づく意思決定という考え方は、わりと一般化している印象があるが、対する事例・エピソードに基づくそれを意識することも、一つの仕事や研究に対するアプローチ方法として有用だと思った。ただし「一部の成功例が強調され過ぎたり、失敗例が報告されないようなバイアスが生じ得る」(p.83)可能性もあるので、報告者の倫理感が必須となろう。「データに基づく判断をベースとして、人間の経験と勘に基づく判断も活かす」(p.90)ことが、実務の場での理想的な判断の仕方だと思った。
本書のタイトルにある「データサイエンス」って何?と思い、読んでみました。 本書では「データサイエンスとは情報学、統計学、価値創造の3つの要素を統合する分野」として解説。 スマホを携帯して移動したり、お店で品物を購入する際にポイントカードを提示したりしながら、便利さやポイント還元などと引き換えに無意...続きを読む識にビッグデータの元を提供していたことに改めて気付いた。 統計学は昔からある学問だし、学校や会社で学ぶ機会もあったので、Ⅱ章「データとは何か」はとても分かりやすかった。 Ⅲ章「データに語らせる -発見の科学へ向けたスキル」はコンピュータや情報学に明るくないので、やや難解だった。 ビッグデータやAIの進歩で新しい学問分野が生まれ、時代は変わったなぁ、と実感した。
レビューをもっと見る
新刊やセール情報をお知らせします。
データサイエンス入門
新刊情報をお知らせします。
竹村彰通
フォロー機能について
「岩波新書」の最新刊一覧へ
「ビジネス・経済」無料一覧へ
「ビジネス・経済」ランキングの一覧へ
応用基礎としてのデータサイエンス 改訂第2版 AI×データ活用の実践
教養としてのデータサイエンス 改訂第2版
統計モデルと推測
「竹村彰通」のこれもおすすめ一覧へ
一覧 >>
▲データサイエンス入門 ページトップヘ