4章のデータ分析基盤のところが非常にわかりやすかった。
データレイクは構造データ、非構造データを全部一緒に保存しておく箱。ストレージでAWSだとS3。
今まではRDBのDWHのみが主流だったが、最近は画像や音声、動画データ、Iotデータなど非構造化データが増えて来たので、データレイクにぶち込んでおく
...続きを読む流れ。
DWHは企業がアクションに繋げるために活用するデータベースでRDB形式に整理されている。AWSならRedshift。
データレイクからDWHにデータを持ってくる際の前処理としてETL(Extract、Transform、Load)がある。
AWSならAWS glue。これにはデータカタログを作る機能もあり、AWS Athenaを使うとS3のデータをSQLクエリで呼び出せる。
従来はデータレイクの横に別のサーバーを置いて、そこで前処理してからDWHにデータを移行していたが、最近はDWH側の性能が上がって一旦データをDWH側にロードして、DHWで整理して置き換えするやり方が増えてきたらしい。
そしてDHWに溜まったデータを活用するにはBIを使う。
AWSならQuick sight。