音声デバイスの進化はすさまじい。様々な技術が絡み合いながら、今の進化につながっている。その先の未来は?
そもそも、機械と人間が音声でやり取りするということが、人類の夢のようなものだ。
古くからSF映画で表現されてきた世界。
今現在、数々の技術的ブレイクスルーが、その世界を実現しようとしている。
まず
...続きを読むは、人間の音声を「聞き取り」、それを「テキストデータに変換する」という作業。
これだけでも相当な技術の固まりであったが、この段階では言葉の意味を理解している状態ではない。
そもそも「理解している」という定義が曖昧なだけに、どの状態が正しく理解出来ている状態なのかを計ることも難しい。
(人間同士だって、内容を理解していないのに、会話が成立している場合がある)
理解が出来て初めて、人間からの質問に対する適切な回答を出さなければいけない。
こういう技術的な段階を踏まえてみるだけでも、音声だけで人間と機械がやりとりすることは相当に難しいことを感じてしまう。
今までは「人間の回答例」をひたすら機械に学習させていたようだが、そのパターンが膨大過ぎて、すべてを網羅することが現実的にできなかった。
それがディープラーニングの登場によって、一気に問題解決に向かっている訳であるが、早くも新たな課題に直面したという。
様々な文章を大量に読み込んで、それをアルゴリズムによって回答を抽出するというやり方。
読み込むデータがそもそも全て正しいデータとは言えない点が、この問題を表面化させたと言える。
文章に嘘が混じっているかもしれないし、差別的なもの、人を洗脳させる目的のものだって混在している。
それらをAIが読み込んでアルゴリズムによって導き出した回答は、本当に正しいのだろうか?
回答が差別的な文言を含んでいたり、政治的に偏った発言があったりというのは、すでに事例が出ており問題となっている。
それではこの機械の回答は、どこまでだったら許されるのか?
機械の回答によって、人間自体の行動に変化が出たり、人生そのものにも影響を与えるようなことになってしまう問題をどう考えればよいのか?
機械に問う課題は、一問一答とは限らない。
「鏡よ鏡、私綺麗?」と問われたときに、一体どういう回答をすれば正解なのか?
これだけでも難問である。
様々な問題がはらんでいるのは確かだが、いずれにしてもAIの進化によって、音声デバイスが一気に花開いたのは事実だ。
課題はありつつも、今後も進化を重ねて、音声デバイスがより社会に浸透していくことは間違いがないだろう。
なぜなら、ほとんどの人は文章を読むことよりも、口頭でやり取りした方が圧倒的に楽だと思っているからだ。
日本でも識字率は勿論100%に近いわけであるが、現実的に文字が読めるのと、長文を理解してい
るかというのは意味合いが違う。
これも様々な証拠データが揃っているようだが、文章を正しく読めている人は実際に少数派だという結果が出ている。
だからこそ、ほとんどの人は音声デバイスに頼って生きていくことになるのだろう。
そういう世界が訪れた時に、さらに問題になるのが、プライバシーだという。
音声デバイスが常時家の中で収録し、家人の行動を監視しているとしたら?
もちろん家人が問いかけたときだけ作動するようにセットすることは可能だろうが、それを見せかけることすらも可能だ。
機械として家の中に設置されていて、電源が入りインターネットにつながっている以上、いつ何時すべての会話を録音されていても不思議ではない。
むしろ最近のドライブレコーダーのように、すべてを記録していた方が便利な場合だって実際にある。
もし家に泥棒が入ったとしたら、それを自動的に感知して警察に通報してくれたら便利かもしれない。
逆に、音声デバイスにそこまで頼ってよいのだろうか、という疑問も生まれる。
例であるが、子が親に虐待されて泣いていたとする。
この状況を、友達同士で喧嘩して泣いている場合とどう区別するのか。
もし家に強盗が入って乱暴され、アレクサに「助けて」と言った場合、音声デバイスは警察に連絡するのだろうか?
強盗に「連絡するな」と言われれば、音声デバイスは警察への連絡をやめるのだろうか。
音声デバイスに「どこまで主体的に判断をさせるか」という部分が課題となる訳であるが、そもそも機械に主体性がないのに「主体性の判断」とは矛盾している。
そしてそんな音声デバイスにそこまで責任を負わせてよいのか?という課題も付きまとう。
いずれにしても、これらのような事例もこれから解決していかなければいけない課題なのである。
ボイスコンピューティングの世界は想像以上に根が深い。
一方で、メンタル的に病んだ時に悩みを打ち明けるのは、相手が人間よりもスマートスピーカーの方が本音を話すという実験の結果が出た。
これについても、よくよく自分の身に置き換えてみれば、何となく分かる気がする。
人間の医師に精神的な部分を診てもらうよりも、一次的にスマートスピーカーに話しかけて、AIに診断してもらった方が、心理的ハードルが低い。
気軽に機械に聞いてみた方が、その事務的なやり取りこそ、何となく本音を話せそうな気がしてしまう。
これは、医師の負担も相当に軽減することにも繋がる。
AIがまずは一次診断して、それから人間の医師が診れば効率的だ。
それでは果たして、AIに益々個人的な情報が集まることになってしまうが、本当にそれで良いのだろうか?
人の悩み、落ち込んだ時の心の情報を機械に委ねてよいのか?
ここでも根深い課題が壁として立ちはだかる。
本書では、音声デバイスでは、検索でたった一つの答えしか出せないことにも警鐘を鳴らしている。
その状況は、新たな格差を生み出さないだろうか?
今はテキストで検索するので、候補のランキングが出るし、SEO対策も、そもそも広告出稿も出来る。
それでGoogleやFacebookは巨額の利益を上げている訳であるが、その辺もどういうパワーバランスになっていくのだろうか?
音声ではたった一つの回答しかなく、選択が最初から絞られた状態になるということは、危険も伴うはずだ。
ユーザーを正しい情報に導けるのだろうか?
選択肢がない状況で、唯一の回答しか与えられない状況で、もし情報を操作されていたら、人を洗脳することすら容易になってしまう。
しかも音声は人間との距離感を縮めるので、より信じやすくなってしまうのではないだろうか。
新技術は常に便益とのトレードオフであるが、音声デバイスの進化に伴う便益と、果たして利害は合致していくのだろうかと思ってしまう。
いずれにしても、人間が24時間以上時間を作ることは出来ないのだから、「目」の限られた時間の奪い合いは厳しい戦いになるだろう。
だからこそ「耳」の取り合いになるのはすごくよく分かる。
今でも意外とラジオリスナーが多く、さらに熱量が高いというのがその証拠ではないだろうか。
大体人間は誰かと一緒にいても、無言で喋らずにいたら、幸せを感じない生き物らしい。
会話があるからこそ相手に対して親近感が湧くだろうし、自分自身も幸せを感じる。
聞いてもらうことで、認められたという承認欲求が満たされることも要因の一つだろう。
だからこそ、音声デバイスのやり取りは非常に重要だ。
ラジオリスナーがついついパーソナリティとの距離を近く感じるのも、そういう部分が大きいのだろうと思う。
音声の可能性が開かれているのは間違いない。
しかし、我々はどういうスタンスで音声そのものと対峙していけばよいのか。
例えば、今後は死んだ人すらも、AI音声で生き返らせることが可能となる。
チャットボットの進化版のようなものであるが、死んでしまった彼女に対して、何か話かけたら、彼女のように答えてくれるのだ。
愛する人に先立たれ残された人にとっては、本当に嬉しい機能だろう。
そして今度はこのAI音声が、もう死ぬことはなく、永遠にネット上で生き続けることが出来てしまう。
そういう時代が間近に迫っている中で、本当に我々はどういう生き方をしていくのか。
自分が死んだ後も、AIで自分の人格を残しておきたいだろうか。
死んだ後のことすらも考えなければいけないということなのだ。
音声・AI・そしてヒューマンロボット。
益々進化するテクノロジーの中で、私たちにとって、まだまだ未解決な課題が多すぎる。
しかし音声デバイスの可能性は開かれている。本当に悩ましい難問なのである。
(2023/8/30水)