岡野原大輔のレビュー一覧
-
Posted by ブクログ
人工知能の本、四冊目。この本は薄くて読みやすかったが、「読みやすい」と感じたのはこれまで読んできた蓄積のおかげかもしれない。エッセンスが短くまとまっていて、かつ比較的新しい本(二〇二三年六月発行)なので今の視点での課題や展望も語られ、良いまとめとなった。ただ、六章は難しそうだったので飛ばした。
以下、心に残ったところと、自分の考えたことのみメモ。
■帰納と演繹
これまでの機械学習は帰納的なアプローチであり、演繹的アプローチは苦手であった。だが大規模言語モデル(LLM)は、「人間のように論理をたどって演繹しているわけではない」のに、次の言葉を予測する(=文脈にもっとも自然な単語を選ぶ) -
Posted by ブクログ
Chat GPTが登場した時は、本当に驚いた。一方で、「なんでこんな間違いをするんだ!?」と不思議に思うこともあった。ということで、『大規模言語モデル』を理解すべく読んでみた。
「一般向け」としているものの、文系には厳しい部分はあり、特に、本書の要とも言える6章の「大規模言語モデルはどのような動いているのか」はかなり難しい。
とは言え、
①大規模言語モデルがやっていることは、次の単語を予測すること
②訓練されたデータ以外の見たことのない未知のデータではうまく予測できない(これができるように研究は進んでいる)
因みに、私が、2023年4月に開成中学の入試問題(2021年の小問)を解かせたとこ -
Posted by ブクログ
2022年末にリリースされたChatGPTがその圧倒的性能を知らしめた「生成AI」というものが、どういった仕組みで動いていて、これまで存在したAIとはどう違うのか、更には現在のような性能に至るまでにどういったモデル(仕組み)があったのかを基礎から説明してくれる良書
ある程度の前提知識が求められているため、本書一冊でゼロから理解することは難しいかもしれないが、入念に読み込んだり他の科学系一般書や科学雑誌などを見ることで、より腑に落ちる形で理解できると思う
そもそもデータとはどういう形で存在しているのか、といった基礎的かつ重要な事柄から、去年(2024年)のノーベル賞の話まで幅広く扱われており多く -
Posted by ブクログ
やや難解だが、長期記憶やメタ学習が実現されていることを説明した部分は読みごたえがあった。
chatGPTが学習した情報の量は1兆文字、書籍で1000万冊相当分。
1948年、シャノンは情報量(情報エントロピー)と呼ばれる概念を導入した。ある情報がどれだけ予想していない驚くべき情報かを表し、起こりにくい事象が起きた場合は情報量が大きくなる。この情報理論によって、情報を数学的な枠組みの中で扱えるようになった。
2020年、学習する際に使う訓練データの量、利用するモデルのパラメーター数(モデルサイズ)、投入計算量の3つの要因と、言語モデルの検証データの予測誤差との間には、べき乗測が成り立つこと -
Posted by ブクログ
ネタバレ著者の前作(AI技術の最前線)は全く理解不能な内容だったが今回は一般読者向けを意識したのか、最新の技術が平易に解説されている
・LLMは、人間のように家族がいることなどによる価値観を有しておらず、身体性をもつことから生じる世界の理解もない。おそらくこのシステムが人間の知能と同じになることはない
・価値観や偏見をめぐる判断は人間のフィードバックによる強化学習で行っている
・LLMが次の単語を選ぶメカニズムとしては、英語の穴埋め問題を思い浮かべるとよい、というのはなんとなく腑に落ちる。確かに、あれは周辺情報から次の単語を高い確率で選ぶ例になっている。
・モデルとしては、小さいもののほうが効 -
Posted by ブクログ
ChatGPTのベースになるLLM (大規模言語モデル)についてとても簡潔に解説された本。著者はPreferred Networksの創業者の方で、同社のエンジニアからも多くフィードバックをもらったとのことで、その点でも安心できる。
LLMの成功の鍵となる各要素、自己教師あり学習、汎化、言語モデルのべき乗則、創発、宝くじ仮説、目標駆動学習(RLHF)、自己注意機構、本文中学習、メタ学習、などの説明は簡潔でわかりやすい。
幻覚の課題は大きいが、実際にはChatGPTなどプロンプト事例を引きながら使い倒していくのが、まずは個人的観点からは最初の第一歩になるだろう。実社会では、特定用途への最適化