ブックライブでは、JavaScriptがOFFになっているとご利用いただけない機能があります。JavaScriptを有効にしてご利用ください。
無料マンガ・ラノベなど、豊富なラインナップで100万冊以上配信中!
来店pt
閲覧履歴
My本棚
カート
フォロー
クーポン
Myページ
8pt
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ.高次元空間とはどんな世界なのか,拡散モデルなどの流れの数理はどのように生成AIを実現したのか.AI実装で先端を行く著者が,数式ではなく言葉で,重要な概念の意味を伝える画期的入門書!
ブラウザ試し読み
アプリ試し読みはこちら
※アプリの閲覧環境は最新バージョンのものです。
Posted by ブクログ
拡散モデルやフローマッチングについてイメージでわかりやすく記述していた。技術の歴史的な背景や技術的要請からの設計思想についても詳述されていてとてもよかった。
数式を使わずに生成AIの解説をして下さる、数学オンチにはありがたいが内容は難しいので読解力と理解力が求められる。 何回も読んで頭に入れたい本。
言語処理(離散的)を除く、連続的な動画、音声、画像の生成AIの現状の技術レベルを数式を使わず、説明している。あくまで現状なので、まだ汎化にはいたっていない。 難しかった、分からなかったという感想が多いが、私にはよく分かった。 理由を考えると、 1.熱力学・統計力学の知識があった。エネルギーや分配関...続きを読む数への理解が容易になる。 2.多様体、対称性など現代数学の知識があった。 3.計算量や並列処理など計算機工学の知識があった。 4.物理的な意味での位相配位空間の知識があった。 5.流体力学の知識があった。 などが挙げられる。 しかし、本書では喩えを用いながら、簡便に説明されているので、前提知識はいらないという感想ももったが、概して大学学部レベルの物理学の知識があると、理解が容易になる。
数式が出てこないので分かりやすいようで、結局数式が分からない人がわかる内容かと言われると疑問符。確率に関する概念を人に説明するのは難しいのだと感じさせる。 個人的には生成AIに関する用語や仕組みがまとまっていて非常に勉強になった。
難しい! 読みやすい言葉で記述されているので、目は通せるが内容を理解するのが大変だ.「生成タスクでは一つの入力に対し無数の正解の出力候補がある」との記述がある.如何に効率的に解答を得るかが重要だと感じた.様々なモデルが提案されてきた歴史も出てくるが、その時代の計算機の能力では対応できない事例が多々あ...続きを読むったようだ.最終的に「拡散モデル」と「フローマッチング」をつかった生成手法で大量の学習データを用いて安定的に学習することができるようになった と述べているが、具体的な形がつかめなかった.難しい!!
少し原理が理解できたことでまだうまく使いこなせていない生成AIの使い方のアプローチを変えてみようと思った。
2022年末にリリースされたChatGPTがその圧倒的性能を知らしめた「生成AI」というものが、どういった仕組みで動いていて、これまで存在したAIとはどう違うのか、更には現在のような性能に至るまでにどういったモデル(仕組み)があったのかを基礎から説明してくれる良書 ある程度の前提知識が求められている...続きを読むため、本書一冊でゼロから理解することは難しいかもしれないが、入念に読み込んだり他の科学系一般書や科学雑誌などを見ることで、より腑に落ちる形で理解できると思う そもそもデータとはどういう形で存在しているのか、といった基礎的かつ重要な事柄から、去年(2024年)のノーベル賞の話まで幅広く扱われており多くのトピックで興味がそそられた 付録として、AI学習に欠かせない「機械学習」や「ニューラルネットワーク」についての解説も付いているためそこも読むとより分かりやすくなるだろう
「数式なし」という言葉に釣られて油断して読むと結構難しいと思う。著者が「理系大学生くらい向け」と言っていたが、まさにその位のリテラシーは求められる印象。また本当に「仕組み」にフォーカスがあるので、生成AIの事例等を期待している人は買わないように注意。 以上に留意すれば、この分野にしてはかなり分かりや...続きを読むすい一冊だと思う。
生成AIについて、そして「流れ」を使ってデータを生成する技術について記述。数式は出てこないが、なかなか理解が追い付かない。
エネルギーモデル 各要素について、学習データにより確率を学習し、多次元空間上でよりエネルギーの低い安定した状態にボールが転がるように確率の高い方へ推論することでデータを推測。各要素について学習した確率の総和が1となるよう補正する必要があり、全要素の確率を出さないといけないため計算量が膨大すぎる 正...続きを読む規化モデル 予め設定した確率分布に、学習する度に補正を加え、補正時は全体の総和が変わらないように周辺を補正していくモデル。これでも計算量が膨大であることと、学習データに過度に適応した複雑な流れができてしまうことがネック 拡散モデル 学習データにノイズを加えていき最終的にランダムなデータにまで移行していく際のノイズの加わる流れを学習し、これを反転させることでデータを生成するもの。段階・位置ごとに流れを学習できるため効率的。 フロー・マッチング 段階を踏まずに学習データの各点からランダムデータの各点までの直線を学習し、一気に生成するモデル。全要素を学習しようとすると計算量が膨大であるため、サンプリングした点で学習し、それらを束ねた流れでデータ生成を行う。 拡散モデルによって汎化が達成され未知のデータも生成できるようになった。汎化の仕組みが解明されれば創造性とハルシネーションの抑止をコントロールできるようになるとのこと。 また、言語モデルでも拡散モデルが使えるようになれば(現状は言語データが離散的であるためうまく機能せず)、多様な推測が可能となりより複雑な推論できるようになることや、逐次処理ではなく全要素を並列で処理できるようになることによる効率化期待されるとのこと。 ※■ 2026年5月時点の補正・最新アップデート 1. エネルギー/正規化モデルの現状** 補正:「計算量の膨大さ」という課題は、確率の総和を計算せず、密度の勾配(スコア)のみを追う「スコアベースモデル」への移行によって実用レベルで解決済み。エネルギーモデルの柔軟性を保ちつつ、効率的な学習が可能になっている。 2. 拡散モデルの高速化 変化:かつては「生成に時間がかかる」のが弱点だったが、「蒸留(Distillation)」技術の進化により、現在では1〜数ステップで高品質なデータを生成可能。かつての「段階を踏むため遅い」という認識は過去のものとなった。 3. フロー・マッチングの主流化 変化:2024年当時は次世代技術だったが、現在は動画生成や音声生成のデファクトスタンダード(標準技術)に昇格。拡散モデルの複雑な軌道を「直線化(Rectified Flow)」することで、計算効率と精度の両立が達成されている。 4. 言語モデルにおける「離散データの壁」の突破 補正: 離散的な言語データを直接扱うのではなく、「連続的な潜在空間(埋め込み空間)」上で拡散やフローを行う手法が確立。 進化:これにより、従来の「一文字ずつ順番に出力する(逐次処理)」だけでなく、テキスト全体を並列で一気に生成する「非自己回帰型生成」が実用化。生成速度が劇的に向上し、より複雑な論理構造の保持が可能になった。 5. 汎化と制御(創造性とハルシネーション) 状況:汎化の仕組みの解明が進み、フロー(流れ)の軌道を意図的に外らすことで「創造性」を、軌道の確信度を測定することで「ハルシネーションの検知・抑制」を、動的にコントロールする技術が実装され始めている。 6. 総括:統一理論への移行 最新知見:画像、言語、動画などのメディア種別を問わず、すべてを多次元空間上の「流れ」として制御する「ユニバーサル・フロー・アーキテクチャ」へと技術が統合されており、モデル間の境界線は消失しつつある。
レビューをもっと見る
新刊やセール情報をお知らせします。
生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる
新刊情報をお知らせします。
岡野原大輔
フォロー機能について
「岩波科学ライブラリー」の最新刊一覧へ
「学術・語学」無料一覧へ
「学術・語学」ランキングの一覧へ
AI技術の最前線 これからのAIを読み解く先端技術73
オンライン機械学習
試し読み
拡散モデル データ生成技術の数理
深層学習
対称性と機械学習
大規模言語モデルは新たな知能か ChatGPTが変えた世界
ディープラーニングを支える技術——「正解」を導くメカニズム[技術基礎]
ディープラーニングを支える技術〈2〉——ニューラルネットワーク最大の謎
「岡野原大輔」のこれもおすすめ一覧へ
みんなの公開リストをもっと見る
一覧 >>
▲生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる ページトップヘ