あらすじ

※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。

Apache Sparkは、大規模データ処理のための高速かつ汎用性の高いエンジンです。開発・利用が簡単で機能も豊富なことから幅広い分野で利用されています。本書は、アプリケーション開発プログラミングの経験者を対象に、Apache Sparkを使うための基礎知識から各機能の実装方法、商用システムで利用する場合の留意点などを解説した入門書です。データ分析プラットフォームの考え方から集計・機械学習分析のアプリ開発までわかります！

＼レビュー投稿でポイントプレゼント／ ※購入済みの作品が対象となります

レビューを書く

感情タグBEST3

＃シュール

並び替え

Posted by ブクログ

データ分析基盤（データ分析プラットフォーム）としてApache Sparkを採用し、「今井ファーム」のペグ型土壌検知センサからのストリームデータをデータ収集から最終は機械学習までのデータ処理・分析を具体的なコード共に紹介している。

1章データ分析プラットフォームの概要
2章 Spackの概要
　　概要、Sparkは大きなミドルウエアなので全てをこの本で紹介しているわけではない。また網羅的に紹介しているわけでもない。「今井ファーム」というユースケースをとうして必要なことをコードで説明している。またそのコードも１つ１つ詳細に説明しているわけではないので事前にPython,Flutentd,Zookeeper,Kafkaなどについても前提知識が必要。一言で言うと入門書ではない。
3章サンプルユースケース概要
　　この本でデータ分析をするサンプルの紹介。今井ファームの概要。こんなユースケースを想定していると実業務に展開するときわかりやすい。
4章 Flutentd,Kafkaによるデータ収集
　　データ分析基盤にApache Sparkを採用しているが全てSparkでできるわけではなくFlutentd,Kafkaなどのツールも併用している。上流から下流まで全て設定してあるのがよい。
5章 Spark Strreamingによるデータ処理
　　データ収集から上がってくるストリームデータをマイクロバッチで処理していく手順を紹介
6章外部ストレージへのデータ蓄積
　　カサンブラというデータが増えてもすばやく対応できるデータベースを採用Sparkと組み合わせて使うことが多いとか。
7章 Spark Streamingによるデータ分析
　　データが遅延、ロストすることが多いストリームデータ特有の問題に対して解決方法を提示している
8章 Spark SQLによるデータ処理
　　Jupyter、matplotlibによる前処理、探索的データ分析を紹介
9章 Spark Mlibによるデータ分析
　　Spark Mlibによる機械学習の紹介
10章プロダクションに向けたシステムアーキテクチャを考える
　　実運用に有効な考え方を紹介

かなりのボリューム、この１冊でSparkを理解できたとは思わないあと数冊読み込む必要があるが概要、Sparkの使いどころわかった。なかなかない中級、上級者向けの本

0

2018年10月28日

アプリケーションエンジニアのためのApache Spark入門の作品詳細に戻る

「IT・コンピュータ」ランキング

「IT・コンピュータ」ランキングの一覧へ

【感想・ネタバレ】アプリケーションエンジニアのためのApache Spark入門のレビュー

あらすじ

感情タグBEST3

「IT・コンピュータ」ランキング