Data-centric AI入門

ビジネス・実用

片岡裕雄 / 齋藤邦章 / 清野舜 / 小林滉河 / 河原塚健人 / 宮澤一之 / 鈴木達哉

3,520円 (税込)

17pt

5.0

1件

※この商品はタブレットなど大きいディスプレイを備えた端末で読むことに適しています。また、文字だけを拡大することや、文字列のハイライト、検索、辞書の参照、引用などの機能が使用できません。

◆高品質なデータを設計・開発する技術◆
Data-centric AIとは、機械学習の権威でありGoogleのAI研究チームを率いたAndrew Ngが2021年に提唱した、モデルよりもデータに主眼を置くというAI開発のアプローチです。過去数十年にわたりAI開発においては、固定されたデータセットに対してニューラルネットワークをはじめとしたモデルを適用し、そのモデルを改善することに関心が寄せられていました。しかし、このモデルを中心としたアプローチでは、データセットへの過度な依存やデータセットが抱える課題への無意味な適合により、実用において期待ほどモデルの性能が改善しないといった問題が指摘されています。そのため近年はモデルを固定したうえで、データ拡張、アノテーションの効率化や一貫性の担保、能動学習といったデータに工夫を加えることによってモデルの性能を向上させるアプローチに注目が集まっています。本書では、Data-centric AIの概要を解説したあとに、画像認識、自然言語処理、ロボットといった分野におけるデータを改善するための具体的なアプローチを解説します。最終章では、企業における実践的な取り組みを紹介します。

■こんな方におすすめ
・データセットの作成、データの学習方法に興味のある方
・基盤モデルに興味がある方

■目次
●第1章 Data-centric AIの概要
・1.1 Data-centric AIとは
・1.2 データセットのサイズとモデルの性能の関係
・1.3 データの品質の重要性
・1.4 おわりに
●第2章画像データ
・2.1 画像認識におけるData-Centric AIとは
・2.2 画像認識モデルの基礎知識
・2.3 データを拡張、生成する技術
・2.4 不完全なアノテーションからの学習
・2.5 画像と言語ペアの関係性を学習した基盤モデル
・2.6 能動学習
・2.7 おわりに
●第3章テキストデータの収集と構築
・3.1 言語モデルの事前学習
・3.2 事前学習データの収集
・3.3 ノイズ除去のためのフィルタリング
・3.4 データからの重複除去
・3.5 テキストデータ収集の限界
・3.6 おわりに
●第4章大規模言語モデルのファインチューニングデータ
・4.1 ファインチューニングとは
・4.2 Instruction Data
・4.3 Preference Data
・4.4 ファインチューニングモデルの評価
・4.5 日本語における大規模言語モデルのファインチューニング
・4.6 おわりに
●第5章ロボットデータ
・5.1 はじめに
・5.2 RTシリーズの概要
・5.3 多様なロボット
・5.4 ロボットにおけるデータ収集
・5.5 データセット
・5.6 データ拡張
・5.7 おわりに
●第6章 Data-centric AIの実践例
・6.1 テスラ
・6.2 メタ
・6.3 チューリング
・6.4 LINEヤフー
・6.5 GO
・6.6 コンペティションとベンチマーク
・6.7 Data-centric AI実践のためのサービス
・6.8 おわりに

■著者プロフィール
片岡裕雄（かたおかひろかつ）：2014年慶應義塾大学大学院博士（工学）。2024年現在、産業技術総合研究所上級主任研究員、オックスフォード大学 Academic Visitor および cvpaper.challenge 主宰。時空間モデルのベースライン3D ResNetの研究開発，実データ不要の事前学習法数式ドリブン教師あり学習（Formula-Driven Supervised Learning; FDSL）を提案。2019/2022年度AIST Best Paper、2020年 ACCV 2020 Best Paper Honorable Mention Award、2023年 BMVC 2023 Best Industry Paper Finalist。研究はMIT Technology Reviewや日経等メディアにて掲載。本書の監修を担当。