作品一覧 2019/05/17更新 アプリケーションエンジニアのためのApache Spark入門 試し読み フォロー RDB技術者のためのNoSQLガイド 試し読み フォロー 1~2件目 / 2件<<<1・・・・・・・・・>>> 河村康爾の作品をすべて見る
ユーザーレビュー アプリケーションエンジニアのためのApache Spark入門 新郷美紀 / 今井雄太 / 河村康爾 / 木村宗太郎 / 外賀伸治 / 須田桂伍 / 高木章光 / 田中裕一 / 森下雄貴 データ分析基盤(データ分析プラットフォーム)としてApache Sparkを採用し、「今井ファーム」のペグ型土壌検知センサからのストリームデータをデータ収集から最終は機械学習までのデータ処理・分析を具体的なコード共に紹介している。 1章 データ分析プラットフォームの概要 2章 Spackの概要 ...続きを読む 概要、Sparkは大きなミドルウエアなので全てをこの本で紹介しているわけではない。また網羅的に紹介しているわけでもない。「今井ファーム」というユースケースをとうして必要なことをコードで説明している。またそのコードも1つ1つ詳細に説明しているわけではないので事前にPython,Flutentd,Zookeeper,Kafkaなどについても前提知識が必要。一言で言うと入門書ではない。 3章 サンプルユースケース概要 この本でデータ分析をするサンプルの紹介。今井ファームの概要。こんなユースケースを想定していると実業務に展開するときわかりやすい。 4章 Flutentd,Kafkaによるデータ収集 データ分析基盤にApache Sparkを採用しているが全てSparkでできるわけではなくFlutentd,Kafkaなどのツールも併用している。上流から下流まで全て設定してあるのがよい。 5章 Spark Strreamingによるデータ処理 データ収集から上がってくるストリームデータをマイクロバッチで処理していく手順を紹介 6章 外部ストレージへのデータ蓄積 カサンブラというデータが増えてもすばやく対応できるデータベースを採用Sparkと組み合わせて使うことが多いとか。 7章 Spark Streamingによるデータ分析 データが遅延、ロストすることが多いストリームデータ特有の問題に対して解決方法を提示している 8章 Spark SQLによるデータ処理 Jupyter、matplotlibによる前処理、探索的データ分析を紹介 9章 Spark Mlibによるデータ分析 Spark Mlibによる機械学習の紹介 10章 プロダクションに向けたシステムアーキテクチャを考える 実運用に有効な考え方を紹介 かなりのボリューム、この1冊でSparkを理解できたとは思わないあと数冊読み込む必要があるが概要、Sparkの使いどころわかった。なかなかない中級、上級者向けの本 Posted by ブクログ RDB技術者のためのNoSQLガイド 河村康爾 / 北沢匠 / 佐伯嘉康 / 佐藤直生 / 原沢滋 / 平山毅 / 李昌桓 / 渡部徹太郎 NoSQLに関して基本概念からプロダクトレベルまで紹介している。 NoSQLと一緒くたに呼ばれるが、それぞれ特化している領域が異なっており、特化型DBとの見方もある。この手のIT系の書籍は実際にシステムを動かしてみて、理解を整理する目的で読むことが好ましい。本書はDBの種類ごとに比較しているため、よ...続きを読むり効果的である。 Posted by ブクログ 河村康爾のレビューをもっと見る