【感想・ネタバレ】アプリケーションエンジニアのためのApache Spark入門のレビュー

\ レビュー投稿でポイントプレゼント / ※購入済みの作品が対象となります
レビューを書く

感情タグBEST3

Posted by ブクログ 2018年10月28日

データ分析基盤(データ分析プラットフォーム)としてApache Sparkを採用し、「今井ファーム」のペグ型土壌検知センサからのストリームデータをデータ収集から最終は機械学習までのデータ処理・分析を具体的なコード共に紹介している。

1章 データ分析プラットフォームの概要
2章 Spackの概要
 ...続きを読む 概要、Sparkは大きなミドルウエアなので全てをこの本で紹介しているわけではない。また網羅的に紹介しているわけでもない。「今井ファーム」というユースケースをとうして必要なことをコードで説明している。またそのコードも1つ1つ詳細に説明しているわけではないので事前にPython,Flutentd,Zookeeper,Kafkaなどについても前提知識が必要。一言で言うと入門書ではない。
3章 サンプルユースケース概要
  この本でデータ分析をするサンプルの紹介。今井ファームの概要。こんなユースケースを想定していると実業務に展開するときわかりやすい。
4章 Flutentd,Kafkaによるデータ収集
  データ分析基盤にApache Sparkを採用しているが全てSparkでできるわけではなくFlutentd,Kafkaなどのツールも併用している。上流から下流まで全て設定してあるのがよい。
5章 Spark Strreamingによるデータ処理
  データ収集から上がってくるストリームデータをマイクロバッチで処理していく手順を紹介
6章 外部ストレージへのデータ蓄積
  カサンブラというデータが増えてもすばやく対応できるデータベースを採用Sparkと組み合わせて使うことが多いとか。
7章 Spark Streamingによるデータ分析
  データが遅延、ロストすることが多いストリームデータ特有の問題に対して解決方法を提示している
8章 Spark SQLによるデータ処理
  Jupyter、matplotlibによる前処理、探索的データ分析を紹介
9章 Spark Mlibによるデータ分析
  Spark Mlibによる機械学習の紹介
10章 プロダクションに向けたシステムアーキテクチャを考える
  実運用に有効な考え方を紹介


かなりのボリューム、この1冊でSparkを理解できたとは思わないあと数冊読み込む必要があるが概要、Sparkの使いどころわかった。なかなかない中級、上級者向けの本

0

「IT・コンピュータ」ランキング