「ビッグデータ」をテーマに,データ分析基盤技術をまとめた解説書。
AIの発展,コンテナ技術の進歩をはじめ,ビッグデータを取り巻く技術が大きく変わり始めました。ビッグデータの技術には,元々大きく分けて2つのバックグラウンドがありました。一つは業務系システムで,RDB(Relational Database)から取り出したデータをバッチ処理して役立つ情報を提供する。もう一つはWeb/IoT系システムで,RDBでは扱いきれない大量のログを分散システムを使い,データ処理をする。この2つの流れが融合し,膨大なデータを収集/変換し,分析/可視化するための一連の基盤システムの重要度は格段に上がりました。さらに昨今のAI/機械学習の台頭で,新たな潮流が生まれています。
本書では,ビッグデータを支える基盤技術の「今」に焦点を当て,前半ではデータ量や分散処理など基本概念の整理と,代表的なテクノロジーを徹底解説。合わせて,各技術登場の歴史的な背景も丁寧に追います。後半は実践編としてオープンソースや無償版が利用できるソフトウェアを中心にラップトップ1台でビッグデータを体験しながら学べるよう解説を進めます。今回の改訂では,ビッグデータの技術を活用した応用分野のうち注目度の高い機械学習や特徴量ストア,MLOpsの話題も新たに盛り込み,充実の内容でお届けします。