あらすじ
きれいに整形されたデータを使った分析の経験はあっても、「実務で扱う生データをどのように前処理すればよいのか」と、お悩みではないでしょうか。前処理は課題ごとに、都度オーダーメイドで設計・実装していくものです。本書では4種類のデータを対象とし、機械学習で予測を行う場合の前処理の基本ノウハウを学び、Pythonによる実装を体験します。本書で扱った技術は、そのまま実務にも活かせます。
機械学習における分析モデルの作成は自動化されつつありますが、その時に投入する特徴量は、人の手で前処理して作成する状況が続くでしょう。これからデータ分析に携わる方々にとって、前処理の力を高めることは、きっと大きな助けとなるでしょう。
(本書「あとがき」から抜粋・編集)
■著者プロフィール
足立 悠(あだち はるか)
BULB株式会社所属のデータサイエンティスト。
過去にメーカーのSE やデータサイエンティスト、IT ベンダーのデータアナリスト等を経て現職。数々のデータ分析プロジェクトのほか、実務者教育にも従事。個人的な活動として、記事や書籍の執筆、セミナー講師なども行っている。著書に『初めてのTensorFlow』と『ソニー開発のNeural Network Console 入門』がある。
多感な時期に高専で5年間を過ごしてしまったせいか、周囲から変人や外れ値と評されている。趣味はお地蔵さんが密集している場所に佇むこと。近いうちに、日本を北から南へ移動しながら仕事し、パフォーマンスを測定してみたい。
感情タグBEST3
Posted by ブクログ
機械処理・深層学習に必要な前処理の説明(機械学習、深層学習はわずかに説明あり、しかしメインではない)
今までの本では機械学習本に含まれていた処理を特化して取り上げている。
1章 データ分析・活用を始めるために
省略
2章 データ分析のプロセスと環境
本書の概要と実行環境(Google Colaboratory)の導入
データとjupyter notebook
3章 構造化データの前処理
まず、よくデータを診ましょう、データの型、個数、可視化、統計量把握など。欠損値の扱いはとても大事。
文字列データをカテゴリ変数により数値化
決定木手法で機械学習。
4章 構造化データの前処理(2)
数値を正規化(範囲変換、Z変換) してより機械学習しやすようにする。
階層型クラスタリング、非階層型クラスタリングにより教師なし学習。
5章 画像データの前学習
画像を読み込んでグレースケール化、2値化画像に変換する方法、ノイズ除去のためのモルフォロジー変換。
深層学習のためのデータ準備。画像の水増しのための画像反転、平滑化、明度変更など。
6章 時系列データの前処理
時系列データ特有の何分ごと、何時間ごとの集計作業(合計または平均など)の処理、読み取る期間をずらしながら集約するrolling関数の紹介。
k-NN法による異常検知、オートエンコーダによる異常検知。
7章 自然言語データの前処理
Janomeを使った形態素解析。単語文章行列の作成。
RNN(再帰型ニューラルネットワーク)のためのデータ準備として単語のインデックス化。
単語の共起ネットワークのためのデータ準備としてコサイン類似度の計算