松木晋祐の検索結果
検索のヒント
検索のヒント
■キーワードの変更・再検索
記号を含むキーワードや略称は適切に検索できない場合があります。 略称は正式名称の一部など、異なるキーワードで再検索してみてください。
■ひらがな検索がおすすめ!
ひらがなで入力するとより検索結果に表示されやすくなります。
おすすめ例
まどうし
つまずきやすい例
魔導士
「魔導師」や「魔道士」など、異なる漢字で検索すると結果に表示されない場合があります。
■並び順の変更
人気順や新着順で並び替えると、お探しの作品がより前に表示される場合があります。
■絞り込み検索もおすすめ!
発売状況の「新刊(1ヶ月以内)」にチェックを入れて検索してみてください。
-
-◆生成AIアプリケーションをどのようにテストし、評価するか◆ 生成AIを活用したアプリケーションは、リサーチ、ソフトウェア開発、各種創作活動の補助等、さまざまな知的労働において、欠かせないパートナーとなりつつあります。従来の演繹的なロジックの積み重ねにより構築されたソフトウェアと構造的に異なる生成AIアプリケーションは、その性質上、次の特徴を持ちます。 ・確率的出力:同じ入力に対して、常に同じ出力が得られるとは限らない ・複雑な挙動:入力と出力の関係が明確ではなく、ブラックボックス的な側面がある ・文脈依存性:過去のやり取りや外部情報によって出力が変化する これらの特徴から、生成AIアプリケーションの品質を保証するためには、従来のソフトウェアテストとは異なる手法によるテストと評価が不可欠となります。 本書では、生成AIを活用したアプリケーション、システムに焦点をあてて、そのテスト、評価のアプローチを紹介していきます。 ■こんな方におすすめ ・生成AIアプリケーションの開発者、QAエンジニア、プロダクトマネージャー ・生成AIアプリケーションを利用する企業、個人 ・これまでと異なるアプローチのテストを学びたいQAエンジニア ■目次 1章 生成AIアプリケーションの評価の概要 ・1.1 生成AI アプリケーションの特徴と評価の必要性 ・1.2 生成AI アプリケーションの基本的な構造モデルと評価プロセスモデル ・1.3 開発ライフサイクルにおける生成AI アプリケーションの評価アプローチ ・1.4 まとめ 2章 生成AIアプリケーションの評価基盤モデルと評価アプローチ ・2.1 生成AI アプリケーションの品質モデル ・2.2 機械学習利用システムの外部品質特性レベル ・2.3 品質モデルとテストタイプを組み合わせて ・2.4 生成AI アプリケーションの基盤評価モデル ・2.5 評価観点基盤モデルにもとづく製品独自の評価観点モデルの構築とメトリクス設計 ・2.6 生成AI アプリケーション開発における開発チームとQA チームの役割分担の例 ・2.7 まとめ 3章 基本的な評価メトリクス ・3.1 混同行列にもとづくメトリクス ・3.2 検索・RAG 向けの基本的なメトリクス ・3.3 生成テキストの内容一致の基本的なメトリクス ・3.4 各メトリクスを実際に運用する ・3.5 まとめ 4章 評価メトリクスのツールによる評価の実際 ・4.1 LLMを評価者として利用する「LLM-as-a-Judge」 ・4.2 メトリクスの評価環境の構築 ・4.3 評価の実行 ・4.4 pytestと統合した利用 ・4.5 まとめ 5章 生成AIアプリケーションのセキュリティ評価 ・5.1 OWASP LLMとは ・5.2 OWASP LLM2025 ・5.3 生成AI・LLMのセキュリティテスト・レッドチーミング ・5.4 まとめ 6章 AIエージェントの評価 ・6.1 AI エージェントとは ・6.2 AIエージェントのパターンと構造・評価観点の例 ・6.3 AIエージェントの評価メトリクス ・6.4 まとめ 7章 生成AIアプリケーションのテスト・評価のその他のトピック ・7.1 プロパティベースドテスト ・7.2 画像分析型の生成AI アプリケーションの評価 ・7.3 AI 駆動開発のテスト・QA ■著者プロフィール 松木晋祐:株式会社ベリサーブ 執行役員 研究開発管掌。AIQVE ONE株式会社 取締役CTO。独立系ソフトウェアベンダにてさまざまなロールを経験後、株式会社ベリサーブ/AIQVE ONE株式会社へ。ソフトウェア開発、QA/テストにまつわる先進技術推進、応用技術開発を担う部門を創設、運用。生成AIが組み込まれたシステムの品質保証技術、AI駆動開発に向けたプロセスQA技術の研究などを推進。また、AIQVE ONE株式会社ではゲーム分野へのAI4QA技術/製品開発などを企画、製品化を実現。AIとQAの掛け合わせで国内のさまざまな企業産業に向けた技術開発、提案を行なっている。社外活動に、東京電機大学CySec講師、テスト自動化研究会ファウンダー、ISO/IEC JTC1/SC7/WG26、JSTQB Technical Committee、W3C CSSWG コントリビューターなど。