松木晋祐の作品一覧

「松木晋祐」の「生成AIアプリケーション評価入門」ほか、ユーザーレビューをお届けします！

作者をフォローする

フォローすると、この作者の新刊が配信された際に、お知らせします。

作品一覧

人気順

生成AIアプリケーション評価入門

4.0

IT・コンピュータ / 言語・プログラミング

1巻2,640円 (税込)

◆生成AIアプリケーションをどのようにテストし、評価するか◆ 生成AIを活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは、その性質上、次の特徴を持ちます。・確率的出力：同じ入力に対して、常に同じ出力が得られるとは限らない・複雑な挙動：入力と出力の関係が明確ではなく、ブラックボックス的な側面がある・文脈依存性：過去のやり取りや外部情報によって出力が変化するこれらの特徴から、生成AIアプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。本書では、生成AIを活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。 ■こんな方におすすめ・生成AIアプリケーションの開発者、QAエンジニア、プロダクトマネージャー・生成AIアプリケーションを利用する企業、個人・これまでと異なるアプローチのテストを学びたいQAエンジニア ■目次 1章生成AIアプリケーションの評価の概要・1.1 生成AI アプリケーションの特徴と評価の必要性・1.2 生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル・1.3 開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ・1.4 まとめ 2章生成AIアプリケーションの評価基盤モデルと評価アプローチ・2.1 生成AI アプリケーションの品質モデル・2.2 機械学習利用システムの外部品質特性レベル・2.3 品質モデルとテストタイプを組み合わせて・2.4 生成AI アプリケーションの基盤評価モデル・2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計・2.6 生成AI アプリケーション開発における開発チームとQA チームの役割分担の例・2.7 まとめ 3章基本的な評価メトリクス・3.1 混同行列にもとづくメトリクス・3.2 検索・RAG 向けの基本的なメトリクス・3.3 生成テキストの内容一致の基本的なメトリクス・3.4 各メトリクスを実際に運用する・3.5 まとめ 4章評価メトリクスのツールによる評価の実際・4.1 LLMを評価者として利用する「LLM-as-a-Judge」・4.2 メトリクスの評価環境の構築・4.3 評価の実行・4.4 pytestと統合した利用・4.5 まとめ 5章生成AIアプリケーションのセキュリティ評価・5.1 OWASP LLMとは・5.2 OWASP LLM2025 ・5.3 生成AI・LLMのセキュリティテスト・レッドチーミング・5.4 まとめ 6章 AIエージェントの評価・6.1 AI エージェントとは・6.2 AIエージェントのパターンと構造・評価観点の例・6.3 AIエージェントの評価メトリクス・6.4 まとめ 7章生成AIアプリケーションのテスト・評価のその他のトピック・7.1 プロパティベースドテスト・7.2 画像分析型の生成AI アプリケーションの評価・7.3 AI 駆動開発のテスト・QA ■著者プロフィール松木晋祐：株式会社ベリサーブ執行役員研究開発管掌。AIQVE ONE株式会社取締役CTO。独立系ソフトウェアベンダにてさまざまなロールを経験後、株式会社ベリサーブ／AIQVE ONE株式会社へ。ソフトウェア開発、QA／テストにまつわる先進技術推進、応用技術開発を担う部門を創設、運用。生成AIが組み込まれたシステムの品質保証技術、AI駆動開発に向けたプロセスQA技術の研究などを推進。また、AIQVE ONE株式会社ではゲーム分野へのAI4QA技術／製品開発などを企画、製品化を実現。AIとQAの掛け合わせで国内のさまざまな企業産業に向けた技術開発、提案を行なっている。社外活動に、東京電機大学CySec講師、テスト自動化研究会ファウンダー、ISO/IEC JTC1/SC7/WG26、JSTQB Technical Committee、W3C CSSWG コントリビューターなど。

試し読みフォロー

松木晋祐の詳細検索へ

ユーザーレビュー

一覧 >>

生成AIアプリケーション評価入門
IT・コンピュータ / 言語・プログラミング

4.0

(1)
- カート
- 試し読み
Posted by ブクログ

品質モデルの解説、分類・検索/RAG・生成テキストの内容一致などの評価、LLM-as-a-Judge、エージェントの評価軸の紹介など、いくつかの観点から生成AIアプリケーションの評価について書かれている。
実用に足る具体的な評価方法が記述されているとよりよい。

0

2026年06月06日