あらすじ
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ.高次元空間とはどんな世界なのか,拡散モデルなどの流れの数理はどのように生成AIを実現したのか.AI実装で先端を行く著者が,数式ではなく言葉で,重要な概念の意味を伝える画期的入門書!
...続きを読む感情タグBEST3
Posted by ブクログ
拡散モデルやフローマッチングについてイメージでわかりやすく記述していた。技術の歴史的な背景や技術的要請からの設計思想についても詳述されていてとてもよかった。
Posted by ブクログ
言語処理(離散的)を除く、連続的な動画、音声、画像の生成AIの現状の技術レベルを数式を使わず、説明している。あくまで現状なので、まだ汎化にはいたっていない。
難しかった、分からなかったという感想が多いが、私にはよく分かった。
理由を考えると、
1.熱力学・統計力学の知識があった。エネルギーや分配関数への理解が容易になる。
2.多様体、対称性など現代数学の知識があった。
3.計算量や並列処理など計算機工学の知識があった。
4.物理的な意味での位相配位空間の知識があった。
5.流体力学の知識があった。
などが挙げられる。
しかし、本書では喩えを用いながら、簡便に説明されているので、前提知識はいらないという感想ももったが、概して大学学部レベルの物理学の知識があると、理解が容易になる。
Posted by ブクログ
数式が出てこないので分かりやすいようで、結局数式が分からない人がわかる内容かと言われると疑問符。確率に関する概念を人に説明するのは難しいのだと感じさせる。
個人的には生成AIに関する用語や仕組みがまとまっていて非常に勉強になった。
Posted by ブクログ
難しい! 読みやすい言葉で記述されているので、目は通せるが内容を理解するのが大変だ.「生成タスクでは一つの入力に対し無数の正解の出力候補がある」との記述がある.如何に効率的に解答を得るかが重要だと感じた.様々なモデルが提案されてきた歴史も出てくるが、その時代の計算機の能力では対応できない事例が多々あったようだ.最終的に「拡散モデル」と「フローマッチング」をつかった生成手法で大量の学習データを用いて安定的に学習することができるようになった と述べているが、具体的な形がつかめなかった.難しい!!
Posted by ブクログ
2022年末にリリースされたChatGPTがその圧倒的性能を知らしめた「生成AI」というものが、どういった仕組みで動いていて、これまで存在したAIとはどう違うのか、更には現在のような性能に至るまでにどういったモデル(仕組み)があったのかを基礎から説明してくれる良書
ある程度の前提知識が求められているため、本書一冊でゼロから理解することは難しいかもしれないが、入念に読み込んだり他の科学系一般書や科学雑誌などを見ることで、より腑に落ちる形で理解できると思う
そもそもデータとはどういう形で存在しているのか、といった基礎的かつ重要な事柄から、去年(2024年)のノーベル賞の話まで幅広く扱われており多くのトピックで興味がそそられた
付録として、AI学習に欠かせない「機械学習」や「ニューラルネットワーク」についての解説も付いているためそこも読むとより分かりやすくなるだろう
Posted by ブクログ
「数式なし」という言葉に釣られて油断して読むと結構難しいと思う。著者が「理系大学生くらい向け」と言っていたが、まさにその位のリテラシーは求められる印象。また本当に「仕組み」にフォーカスがあるので、生成AIの事例等を期待している人は買わないように注意。
以上に留意すれば、この分野にしてはかなり分かりやすい一冊だと思う。
Posted by ブクログ
【カバー範囲】
「生成AIのしくみ」というタイトルではありますが、ここでは基本的に画像生成の原理に触れているだけです。潜在変数モデル(VAE)を歴史として紹介したのち、拡散モデルによる画像の学習と生成について、著者の視点で語られています。それらについて読んで面白かったですが、それは勉強というより専門家とされる人とカジュアルな会話している感じでした。
【特徴的と思った点】
(1) 確率モデルの説明で自由エネルギーの話をするとき、イジングモデルから説明をされていました。分配関数など統計力学の素養があるようで、それが他の類書?と異なっている気がしました。分配関数についてもページ数を割いていました。ただ、触れているだけで、知っている人が聞けば「そうだね」という感じではあります。
(2) 拡散過程については、私は元の論文を読んだことはないのですが、関連論文(Stable diffusionなど)は読んで、公開コードに目を通し動かしたことはあるレベルでした。拡散過程は直観的に分からないのですが、巷できく「確率過程について、学習においてはマクロな数学的記述(フォッカー・プランク方程式)、生成においてはミクロな記述(ランジェバン方程式)の特性を利用している」という話と整合性のある説明があり、自分の中で直観的な理解のヒントにさせていただこうと思いました。
(3) VAE、拡散モデルなど、発表時期、発表者を書いていて、これは良いと思いました。2010年代の話であり、私も紹介された内容は狭い学会で閉じた枝葉末節ではなく、紹介されるに値する内容であり、また、2025年現在の立ち位置を理解するのにも役に立つと思います。
【おすすめ?】
文章(プロンプト)から画像が生成される原理については触れられていません。音、テキストにも触れられていなかったと思います。おすすめかと言われれば、「誰向け?」という感じで微妙です。AIを使うだけの人、エンジニアでも既存のコードを利用するだけの人、アルゴリズムに興味がる人、には強くは薦められないと思いました。欲を言えば、同じくらいの文章の量で良いので、横書きで数式を出して説明してくれるものを読みたいなと思いました。
【蛇足】
最後の「○○モデルは○○モデルの一例とみなせる」は読んでいて「うーん、、、」と思いました。
一度目に読んだときは読み流して何も残らず、読書メモを書こうと読み返したときに初めて「ふむふむ」と読めました。