以下の箇所に非常に共感。
「…何年もいろいろなエンジニアを見ていてつくづく思うのですが、だいたい初心者ほどマニュアルを見ていません。熟練したエンジニアはマニュアルをよく見ます。…
たぶん、「ちゃんと確認する」というのはエンジニアとしてのスキルの一種なのです。」
これは、エンジニアに限らない話だと思う。原理原則に遡ることは何事も重要である。たとえば、リーガル関連。法律文や運用基準などに何と書いてあるかを読み込まない人が良いアウトプットを出せるわけがない。
以下、引用。
PostgreSQLを選択した理由は次の3つがあります。
1.誰でも無料で入手できる
2.シェアの高いOracleやSQL ServerとSQLが比較的似ている
3.多機能で、データ活用のために必要な高度な機能が揃っている
select文のことをクエリ―と呼ぶこともあります。
処理対象テーブル(from節で選択)→Where節による絞り込み→group by節によるグループ化→select節による計算→集約関数による集約→having節による絞り込み→order by節によるソート→limit節による絞り込み
もともとSQLは「コンピューターを使う人が自分でプログラミングする」というコンセプトのもとに作られました。このコンセプトをエンドユーザーコンピューティング(EUC)と言います。
最近になって、RDBMSへのデータ取り込みの新しい課題が問題になりつつあります。それは、JSON形式やXML形式を使って、カラム数や個数が不定のデータが大々的に取り込まれるようになってきたことです。
DWHとは次の4つの特徴を持ったデータベースです。
1.サブジェクトごとに編成されていること
2.データが統合されていること
3.時系列データを持つこと
4.データが永続すること
データマートは1つのサブジェクトを分析するための専用データベースで、サブジェクトごとに別々のデータマートを作成します。
非常に乱暴に言ってしまうと、DWHがデータ品質を重視して「ちゃんと」作り込みましょうというアプローチであるのに対して、データマートは「とりあえず」いま使えるものをすぐに、安く作ろうというアプローチです。
Hadoopは、Googleのシステムの影響を受けて開発された、オープンソースの分散データ処理システムです。