作品一覧 2019/05/17更新 アプリケーションエンジニアのためのApache Spark入門 試し読み フォロー 図解入門 最新 データサイエンスがよ~くわかる本 試し読み フォロー 1~2件目 / 2件<<<1・・・・・・・・・>>> 高木章光の作品をすべて見る
ユーザーレビュー アプリケーションエンジニアのためのApache Spark入門 新郷美紀 / 今井雄太 / 河村康爾 / 木村宗太郎 / 外賀伸治 / 須田桂伍 / 高木章光 / 田中裕一 / 森下雄貴 データ分析基盤(データ分析プラットフォーム)としてApache Sparkを採用し、「今井ファーム」のペグ型土壌検知センサからのストリームデータをデータ収集から最終は機械学習までのデータ処理・分析を具体的なコード共に紹介している。 1章 データ分析プラットフォームの概要 2章 Spackの概要 ...続きを読む 概要、Sparkは大きなミドルウエアなので全てをこの本で紹介しているわけではない。また網羅的に紹介しているわけでもない。「今井ファーム」というユースケースをとうして必要なことをコードで説明している。またそのコードも1つ1つ詳細に説明しているわけではないので事前にPython,Flutentd,Zookeeper,Kafkaなどについても前提知識が必要。一言で言うと入門書ではない。 3章 サンプルユースケース概要 この本でデータ分析をするサンプルの紹介。今井ファームの概要。こんなユースケースを想定していると実業務に展開するときわかりやすい。 4章 Flutentd,Kafkaによるデータ収集 データ分析基盤にApache Sparkを採用しているが全てSparkでできるわけではなくFlutentd,Kafkaなどのツールも併用している。上流から下流まで全て設定してあるのがよい。 5章 Spark Strreamingによるデータ処理 データ収集から上がってくるストリームデータをマイクロバッチで処理していく手順を紹介 6章 外部ストレージへのデータ蓄積 カサンブラというデータが増えてもすばやく対応できるデータベースを採用Sparkと組み合わせて使うことが多いとか。 7章 Spark Streamingによるデータ分析 データが遅延、ロストすることが多いストリームデータ特有の問題に対して解決方法を提示している 8章 Spark SQLによるデータ処理 Jupyter、matplotlibによる前処理、探索的データ分析を紹介 9章 Spark Mlibによるデータ分析 Spark Mlibによる機械学習の紹介 10章 プロダクションに向けたシステムアーキテクチャを考える 実運用に有効な考え方を紹介 かなりのボリューム、この1冊でSparkを理解できたとは思わないあと数冊読み込む必要があるが概要、Sparkの使いどころわかった。なかなかない中級、上級者向けの本 Posted by ブクログ 図解入門 最新 データサイエンスがよ~くわかる本 高木章光 / 鈴木英太 タイトル通り、データサインエンスの入門書。初学者がデータサイエンスの全体像を把握するには好適。6章でデータサイエンティストに求められる人物像が紹介されているけど、この条件を満たす人はレアじゃないかな。 Posted by ブクログ 図解入門 最新 データサイエンスがよ~くわかる本 高木章光 / 鈴木英太 総括としては分かりやすくてよい。一通りカバーできてる気がする。いろいろ、勉強しなくちゃいけないな、と刺激になった。 Posted by ブクログ 図解入門 最新 データサイエンスがよ~くわかる本 高木章光 / 鈴木英太 若干すでに古い情報もあるけど、業務プロセスが理解しやすく、データサイエンスを主眼に置きながらも、エンジニアリングのことも書かれていてよかった。 Posted by ブクログ 図解入門 最新 データサイエンスがよ~くわかる本 高木章光 / 鈴木英太 データサイエンスの概要をつかむには非常に良い本。 概要がよくまとまっていて、理解もしやすい。 初心者の方はこの本を最初に読むと良いかもしれない。 個人的にはAWS、Azure、Google cloudの部分のPros/Consをもう少し知りたかった。 ただ内容は概要、俯瞰的に書かれているので良かっ...続きを読むた。 Posted by ブクログ 高木章光のレビューをもっと見る