「生成開始」
そう呟いて空中に浮いたディスプレイ下部のボタンを押すと、周囲の環境が一気に変わり始めた。
「何が起こっているんですか?」
概念同化機構さんの少し怯えたような声が聞こえる。
「しばらく時間がかかると思うから、ゆっくり説明するね」
少し基準となる位置座標をずらして、眼下に作られていく街を見ていく。
「……生成とは別ですか?」
「構造レベルで建造物や世界を理解しているチューンモデルだよ、あまり見ないけど」
二昔ぐらい前の生成AIと呼ばれるシステムは、世界を弁別する能力無しでも人間のような創造性を生み出せることを示した。ただ、それでもまだ人間には意味をつけることができるというアドバンテージがあった。
例えば映画を考えよう。古典的な生成AIに作らせると、たしかにどこかで見たようなシーンや緊迫したような音楽、そして実写と見間違うぐらいの合成をやってのけるだろう。ただ、そこには全体を通して存在するような意図がない。
この場面においてキャラクターが動く方向が左から右なのはなぜか。登場人物の立ち位置と照明の配置が、観客にどのような印象を与えることを意図しているか。物理演算をあえて無視した演出が、なぜ見る人の注意を惹けるのか。
もちろん、こういう効果が当時無視されていたわけではない。ただ、それを実装するための発想が足りなかったのだ。2028年の「大規模世界モデル」の提唱が、その枠を打ち破ったというのが定説である。
この中身を厳密に理解するためには人工知能学科でやる「世界モデル理論A」と「世界モデル理論B」を取ってもらうとして、ひどく雑に言うのであればこの大規模世界モデルによって人工知能は人間と同じような目線を持つに至ったのだ。
入力を分類し、道具を使い分け、それでいて全体の流れをまとまったままにする。それは今までのノイズから何かを生み出したり、あるいはそれまでの流れから続きを作るようなものとは別のアプローチであったが、大量の学習データなしには生み出されなかった。
「それで、今下で動いているのがたぶん建築学とかの方面からの分析だね」
このあたりの話はほどほどにしておこう。わたしだってきちんと説明できるほどのものではないのだ。
大規模世界モデルの特徴の一つは、その実行の過程でAIが世界についての認識をはっきりと持つことだ。もちろんそれはテンソルにすぎないが、それを言ってしまえば人間の脳機能の大半は接続のパターンになってしまう。
「これってどういう事しているんですか?」
「いろいろな方面から見て矛盾がないかをチェックしてる。例えば……」
そう言いながら、ログを切り出す。こういうソフトは一般的な人間より賢いが、一般的な人間と同じようなミスをする。そのため思考過程に相当するログを残して後からの修正が容易なようになっているのだ。このログ自体もそれなりに複雑なので、ちゃんと読むのでなければ要約システムに投げるのがいい。
「例えばこれって原案の角度から考えるとここに通路が必要で、そうすると人が行き交う分汚れが生まれるとかを考えているらしい」
「あくまで、らしい、なんですね」
「人間同士でやったってどうしてもこのあたりはね」
そして落ち着いたらしいので、一来訪者の視点で確認していく。概ね問題なく、ここから手を加えていけばいいだろう。設計自体もちゃんと建築用のシステムを通してあるらしく、変な角度になっていたりとかトマソンが形成されていたりはしていない。
昔の生成イラストとかだと、有名なやつだと指が多いとか髪と肌がくっついているというものがあったそうだ。こういうのは一旦解剖学とかを学習させてあるAIで分析をかけて3次元的な構造を理解させることで処理する、みたいな手法が徐々に編まれていった。
その中での成果の一つは、人間の認識をモデル化できたことにある。つまりはわたし達がものを見る時にどこに集中するかとかというものに近い。これを応用すれば人間と同じように錯覚を起こすAIを作れたし、これを錯覚を起こさないAIと組み合わせてどこで錯覚が起きているかを把握できるようになったりした。
この時点で、AIは人間の認識能力を超えていた。二つの矛盾するような情報をそれより高次の認識から統合するというのができる人間はじつは少ない。もちろん、完全に不可能なわけでもないし訓練である程度は実現できるのだが、そのような認知を誰もが補助として使えるみたいな話はいろいろな分野で希望をもたらしたのだ。
例えばそれは政治分野では、様々な意見を統合してよりよい高次の結論を生むための補助システムの構築の試みなんて形で実用化されようとしていた。しかし「紛争の十年」でそんな望みはなくなってしまったんですが。
「あ、ソニドリさん。ここのあたり、少し不自然じゃないですか?」
そんな会話をしながら作った空間の中をうろうろとしていると、概念同化機構さんが声をかけてきた。
「どこらへんが?」
「んーと、少し待ってください。言葉にしてみます」
色々と技術が進んだ今でも、いや、そういう時代だからこそ、自分の言葉をきちんと持っておくというのは重要だ。そうしないと、世界に溢れている言葉に心が流されてしまう。
言葉には力がある。その一つは、それを聞いた人の心を微調整して、元の言葉と自分の気持ちを同一視してしまうようなものだ。失恋した時に失恋をテーマにした曲を聞いたとしても、その作曲者が知り合いとかそういうことがない限り、歌われている感情と自分の中の感情が完全に一致するなんてことはない。
でも、どうしても引きずられてしまうのだ。それは共感のためには重要な能力だが、今の色々と危ない情報があふれる時代にはあまりいいものではない。一旦立ち止まって、周囲の雑音から耳をふさいで、それでも残る自分の中の言葉を、どうにか掬い出すしかない。
「たぶん、ここは赤っぽいんです。確かにこういう場所の照明は防犯とかを考えたら温かみのある色なのかもしれませんが、描写としてはもっと青くて、寒い雰囲気のほうが……」
「なるほど」
わたしだけでは気がつくことのできなかった視点だ。リアルさを求めるシステムの問題点の一つは、こういう印象を読み取ることに限界がある点にある。なのでどこかで人間が噛むと一気にいいものができる。
後でチーフに概念同化機構さんの分の報酬をどうにか工面できないか相談しようと思いながら、わたしは設定画面を出して照明のスペクトルを調整した。