濱田孝治のレビュー一覧
-
Posted by ブクログ
4章のデータ分析基盤のところが非常にわかりやすかった。
データレイクは構造データ、非構造データを全部一緒に保存しておく箱。ストレージでAWSだとS3。
今まではRDBのDWHのみが主流だったが、最近は画像や音声、動画データ、Iotデータなど非構造化データが増えて来たので、データレイクにぶち込んでおく流れ。
DWHは企業がアクションに繋げるために活用するデータベースでRDB形式に整理されている。AWSならRedshift。
データレイクからDWHにデータを持ってくる際の前処理としてETL(Extract、Transform、Load)がある。
AWSならAWS glue。これにはデータカタロ -