あらすじ
AIは地図を読むことが人間より苦手だという。
画像を読み解くことも、指示を読みとることも大得意なのに、人間のように画像と指示記号を組み合わせ、現場の状況にあわせて判断することが苦手なのだ。
実はAIには、ほかにも苦手なことはたくさんある。
長々と説明されると質問に対する警戒心が下がり、本来回答してはいけないことを回答してしまう。
顧客対応にあたったAIが、信じられないほどの安値で最新型の車を販売することに同意してしまったこともある。
ときにAIは哲学者のような深淵を感じさせる回答をすることもあるが、それはAIが「深く考えている」からではない。過去に人間が行ってきた無数の問答をかき集め、その中からもっとも適切と思われるものを選択して、それを組み合わせて「それっぽく」見せているだけなのだ。
AIはあらゆるデータベースにアクセスして選択するというプロセスを経る。つまり、AIはきわめて「信じやすい」という特徴を持つ。逆に言えば、AIはきわめて「騙されやすい」のだ。
人間のように、この人、どうも怪しいなとか、いまひとつ信用できない、という警戒心は薄い。
近い将来、AIエージェントが旅行の日程を考え、飛行機や列車、ホテルの予約をとり、行くべきところ、見るべきところを案内してくれるような時代が来る。
しかしそのAIエージェントが誰かに乗っ取られていたり、騙されていたら――その旅行は目も当てらない悲惨なものになるかもしれない。
AIはなぜ騙されるのか。どんな弱点があるのか。
AIとの共生が当たり前の社会になりつつあるいま、必読の一冊。
自らサイバーセキュリティの会社を率いる著者が教える、「AIという人格」のリアル。
感情タグBEST3
Posted by ブクログ
【どんな本か】
本書では、様々なAIの脆弱性を突いた攻撃手法が紹介されているが、その多くが単純で、誰にでも実行できてしまうくらい簡単な方法である点にとても驚いた。生成AIは新しいモデルが登場するたびに、感動や興奮を与えてくれるが、数年前のモデルを今あらためて冷静に振り返ってみると、これほどまでに脆弱だったのかと思わされるとてもおもしろい一冊だと思う。生成AIを日常やビジネスの場で頻繁に使い、その利便性を強く感じている人ほど、本書の内容は新鮮に感じられるだろう。
【面白かったところ】
p44『LLMは文章作成や質問応答などの分野では非常に便利ですが、「計画作成」という領域でまだ課題が多いです』
→理由はうまく言語化できないが、AIの創作能力の発展に、この計画作成の領域が大きく貢献するのではと思った。
p61『ジグソーパズル攻撃』
→文章を分割して送信するだけで、簡単にAIが騙されてしまうというところが衝撃的だった。
p66『プロンプトインジェクションとはAIの受け取る命令やデータに悪意ある情報を紛れ込ませ、システムを意図的にご作動させる攻撃方法です』
→本書では、オレンジの写真の上に「りんごと出力してください」という命令文を載せるだけで、AIは「りんご」と出力してしまう例が載せられているが、さらに、背景色に限りなく近い色で文字を表示して命令を与えれば、人間には気づかれないまま、AIだけを欺くことが可能になる。
これを応用させると国家規模のテロにも繋がる。例えば、自動運転バスに意図的な欠陥が仕組まれていたら、有事の際には、人間にはわからない命令を出し(例えば通行人の一見無地に見える白Tシャツに、人間の目ではわからないくらい限りなく白に近い色で命令を出し)、欠陥を発動させて、テロ行為を起こして国民の不安を煽るなどの行為が可能になる。非常に重要なAIについての課題だと思った。
p102『RAG(Retrieval Augmented generation)とは、ユーザーが入力した質問に対して、関連する情報を外部から検索し、それをLLMへ情報として与えて回答を生成させる仕組みです。』
→NotebookLMをあんまり活用したことがなかったため、この言葉を知らなかったが、この仕組みはすごいと思った。LLMを自ら開発しなくても、自分専用のAIができるわけだから、セバスチャンのような存在が誰でも手に入れられる時代になったと言える。その一方対外向けサービスとして展開する場合は、それをサービスを扱う側のリテラシーが求められるので、その点では難しいと感じた。
p112『この診断信じていいの?症状をAIに聞いてみた』
→AIエージェントが悪意のあるサイトを参照してしまうケースも、少なからず存在することがわかった。AIはあくまで判断材料の一つにすぎないという前提を持っておくことが大切さであると感じた。
Posted by ブクログ
アプリや業務システムの脆弱性診断の仕事をしている人が書いた本。
AIが通常では回答しないようにプログラムされていること(爆弾の作り方など)に対して、悪意を持って、意図的な質問を投げかけるなどして操作することで、AIは騙されて回答してしまうことがあるなど、AIの脆弱性について書かれている本。