あらすじ
※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。
Apache Sparkは、大規模データ処理のための高速かつ汎用性の高いエンジンです。開発・利用が簡単で機能も豊富なことから幅広い分野で利用されています。本書は、アプリケーション開発プログラミングの経験者を対象に、Apache Sparkを使うための基礎知識から各機能の実装方法、商用システムで利用する場合の留意点などを解説した入門書です。データ分析プラットフォームの考え方から集計・機械学習分析のアプリ開発までわかります!
感情タグBEST3
Posted by ブクログ
データ分析基盤(データ分析プラットフォーム)としてApache Sparkを採用し、「今井ファーム」のペグ型土壌検知センサからのストリームデータをデータ収集から最終は機械学習までのデータ処理・分析を具体的なコード共に紹介している。
1章 データ分析プラットフォームの概要
2章 Spackの概要
概要、Sparkは大きなミドルウエアなので全てをこの本で紹介しているわけではない。また網羅的に紹介しているわけでもない。「今井ファーム」というユースケースをとうして必要なことをコードで説明している。またそのコードも1つ1つ詳細に説明しているわけではないので事前にPython,Flutentd,Zookeeper,Kafkaなどについても前提知識が必要。一言で言うと入門書ではない。
3章 サンプルユースケース概要
この本でデータ分析をするサンプルの紹介。今井ファームの概要。こんなユースケースを想定していると実業務に展開するときわかりやすい。
4章 Flutentd,Kafkaによるデータ収集
データ分析基盤にApache Sparkを採用しているが全てSparkでできるわけではなくFlutentd,Kafkaなどのツールも併用している。上流から下流まで全て設定してあるのがよい。
5章 Spark Strreamingによるデータ処理
データ収集から上がってくるストリームデータをマイクロバッチで処理していく手順を紹介
6章 外部ストレージへのデータ蓄積
カサンブラというデータが増えてもすばやく対応できるデータベースを採用Sparkと組み合わせて使うことが多いとか。
7章 Spark Streamingによるデータ分析
データが遅延、ロストすることが多いストリームデータ特有の問題に対して解決方法を提示している
8章 Spark SQLによるデータ処理
Jupyter、matplotlibによる前処理、探索的データ分析を紹介
9章 Spark Mlibによるデータ分析
Spark Mlibによる機械学習の紹介
10章 プロダクションに向けたシステムアーキテクチャを考える
実運用に有効な考え方を紹介
かなりのボリューム、この1冊でSparkを理解できたとは思わないあと数冊読み込む必要があるが概要、Sparkの使いどころわかった。なかなかない中級、上級者向けの本