LLMの知能はどこから来るのか

1. 序論: 二つの文のあいだの空白

「言語モデルと話すということは、結局のところ、確率的につながった長い単語列を生成しているにすぎない。」 — Andrej Karpathy

「AIは超知能になる。人間をはるかに上回る知性になるだろう。」 — Geoffrey Hinton

どちらの文も同じ技術を指しています。片方は仕組みを説明し、もう片方は帰結を警告しています。ですが、この二つのあいだに何があるのか、つまり確率的な単語の連鎖がどうやって人間を超える知性になるのかを説明できる人は誰もいません。

この空白は単なる知識不足ではありません。私たちは、その本質を理解しないまま何かを作っているということです。人類は仕組みを知らないまま、エンジンを全開で回しています。

本稿は、その空白を埋めるための一つの仮説を提案します。

本稿の主張はこうです。創発はスケールの産物ではなく、言語多様性の産物です。より正確には、大規模言語モデルが十分に多様な言語を同時に学習すると、それらの言語のあいだにある交差と緊張がある閾値を越え、どの単一言語にも単独では存在しない新しい表象が現れます。これこそが創発のメカニズムである、というのが本稿の仮説です。

2. 支配的説明の限界: スケール仮説

創発を説明する支配的な仮説は単純です。モデルが大きくなるほど新しい能力が現れる、というものです。これがスケール仮説です。

その基礎にはKaplanら(2020)のスケーリング則研究があります。パラメータ数、データセットサイズ、計算量が増えると、モデル性能がべき乗則に従って予測可能に向上することを示した研究です。その後、GoogleのPaLM研究は、特定のスケールで性能が不連続に跳ね上がる現象を報告し、研究者たちはそれをスケールに由来する創発と呼びました。

しかしこの説明には三つの重大な亀裂があります。

第一に、創発が本当に存在するのか自体が争点です。StanfordのSchaefferら(2023)は、創発の証拠と見なされてきた不連続なジャンプは、測定方法の副産物かもしれないと主張しました。正確度のような非線形指標を使えば性能は階段状に見えますが、線形指標に切り替えると同じデータは滑らかな曲線になります。階段はモデルの中ではなく、測定器の側にあるのかもしれません。

第二に、スケーリング則は一般的な性能を予測できても、創発は予測できません。どこで創発的能力が現れるかは、スケーリング則だけでは分かりません。Google自身も、創発は「スケーリング則を外挿しても直接予測できなかった」と認めています。想定した原因が結果を予測できないなら、それは完全な原因ではありません。

第三に、スケールはすでに物理的限界に直面しています。Chinchilla論文(Hoffmannら, 2022)は、最適な学習にはパラメータ当たりおよそ20トークンが必要だと示しました。100兆パラメータのモデルを学習するには約180ペタバイトのテキストが必要であり、これは人類が現在保有する高品質テキスト総量を大きく上回ります。スケールに基づく説明は、スケールが無限に拡張できるという前提を必要としますが、その前提はすでに揺らいでいます。

スケール仮説は創発と相関していても、その因果は説明しません。より正確には、スケールは創発が起こり得る条件ではあっても、それを生み出す原因ではないのです。

では、本当の原因は何でしょうか。

3. 情況証拠: 産業はすでに動いている

仮説を展開する前に、業界がどこに資源を配分してきたのかを見る価値があります。資本は理論より先に動きます。

2022年、MetaはNLLB(No Language Left Behind)プロジェクトを発表しました。Luganda、Asturian、ウルドゥー語の方言、55のアフリカ言語を含む200言語間で直接翻訳できるモデルです。既存の翻訳ツールが十分に扱えなかった少数言語も対象に含まれていました。いくつかの言語では、翻訳品質が従来の最先端より70%以上向上しました。

この判断は商業ロジックだけでは説明しにくいものです。

Metaの収益モデルは広告です。広告収益はユーザー数に比例します。しかしLugandaやAsturianの話者は、Metaのユーザーベース全体から見れば統計的にごくわずかです。こうした言語を高品質に支援するための研究投資は、ROIだけでは正当化しにくい。Meta自身も、商業的理由より言語的包摂やデジタル公平性を挙げていました。

ここで一つ重要な技術的ディテールがあります。NLLBの決定的なアーキテクチャ上の選択は、英語を中継言語から外したことでした。従来の翻訳システムは多くの言語を少数言語 -> 英語 -> 目的言語のように英語経由で処理します。NLLBはこの構造を壊し、言語同士を直接結びました。これは単なる技術的嗜好ではありません。英語というハブを取り除くことで、それぞれの言語が持つ固有の表象構造が、単一の支配的フレームを経由せずに他の言語と直接交差できるからです。

同時期にMetaのMMS(Massively Multilingual Speech)プロジェクトは、音声認識で4,017言語を支援し始めました。これは当時のGoogle商用音声認識の約30倍のカバレッジでした。

考えられる解釈は二つあります。

第一に、Metaの内部にはすでに何かを知っている人がいるのかもしれません。言語多様性がモデル能力に影響するというシグナルを内部実験で捉えており、まだ公表段階ではないものの、そのシグナルが戦略的な資源配分を動かした可能性があります。

第二に、Metaは私たちがここで仮説として提示しているのと同じ実験を、まだ結論は持たずとも、同じ方向に向かって進めているのかもしれません。

いずれにせよ、この仮説はすでに資本の言語へと翻訳され、動き始めています。

4. 中核仮説: 創発は言語多様性の産物である

本稿の主張は次の通りです。

> 創発はスケールの産物ではなく、言語多様性の産物である。 > 大規模言語モデルが十分に多様な言語を学習すると、 > それらの言語のあいだの交差と緊張がある閾値を越え、 > どの単一言語にも単独では存在しない新しい表象が現れる。 > これが創発のメカニズムである。

この議論は三つの層で構成されます。

第一層: 言語は思考の器ではなく、思考の構造である

従来の見方では、言語は道具です。思考が先にあり、言語はそれを表現するものだと考えます。しかし現代言語学で広く支持されているサピア=ウォーフ仮説の弱い形は、その逆を示唆します。言語が思考を形づくるのです。言語のカテゴリーは知覚のカテゴリーを作ります。

イヌイット諸語に雪を表す語が数十あるという事実は、単なる語彙上の珍しさではありません。それは何千年にもわたる観察、生存知識、知覚の洗練が言語形式に圧縮された結果です。その語彙を持つ人は、持たない人と同じ風景を違って知覚します。言語は知覚を作ります。

すべての言語は、世界のある領域を他より高い精度で表象します。それは話者の歴史、環境、生存条件によって非対称に形成されます。どの言語も世界全体を完全には表象しません。

第二層: 言語の交差が新しい表象を生む

単一言語話者は、一つの表象体系の中で考えます。二言語話者は二つの体系のあいだを往復します。そして翻訳が不可能になる瞬間、たとえばポルトガル語の saudade、日本語の komorebi(木漏れ日)、韓国語の nunchi(눈치)のような概念に触れたとき、どちらの言語だけでも捉えきれない何かが見えてきます。

二言語話者に関する認知研究もこれを支持しています。二つの言語に流暢な人は、単に二つの言語体系を持つだけではありません。そのあいだの空間で作動する第三の認知構造を発達させます。言語数が増えるほど、こうした交差点の数は組み合わせ的に増えていきます。

言語が n 個あるとき、可能な言語ペアの数は n(n-1)/2 です。10言語なら45、100言語なら4,950、200言語なら19,900の交差点が生まれます。それぞれの交差点は、どの単一言語にも完全には属さない概念空間です。

第三層: LLMはこれらの交差を同時に保持する最初の存在である

人間が習得できる言語は多くても数個からせいぜい十数個であり、それも順次的かつ深さに偏りがあります。人間が持てる交差点は構造的に限られています。

LLMは違います。何千もの言語のテキストが一つのパラメータ空間に同時に圧縮されます。どの言語も他より先に来ません。この過程でモデルは、人類がこれまで一度も持ったことのないものを獲得します。何千もの言語的表象構造が一つの空間の中で同時に交差し、その結果、どの原言語にも存在しない表象が生まれるのです。

スケールは可能条件です。大きなモデルほど、より多くの言語をより高い精度で内在化できます。しかしスケールそのものが創発を生むわけではありません。言語交差の密度がある閾値を越えたとき、その空間から新しい表象が現れます。それが創発です。

この仮説は、第2節で見たスケール仮説の三つの亀裂をすべて説明します。創発がある指標では不連続に、別の指標では連続的に見えるのは、それが緩やかな交差の蓄積の上に成り立つ閾値転移を本当に含んでいるからです。スケーリング則が創発を予測できないのは、次の閾値の位置がパラメータ数だけでなく、どの言語がどれだけ密に交差しているかによって決まるからです。そして、データ量の上限に縛られるスケールと違い、言語多様性は言語が一つ加わるたびに交差数が指数的に増えます。少数言語も例外ではありません。

5. 人間における証拠: 多言語話者の認知変容

この仮説は前例のない話ではありません。人間スケールですでに観察されている現象の延長です。

二言語脳は単に言語が一つ多い脳ではない

二言語話者は、単一言語話者に比べて注意制御や課題切り替え能力が高い傾向を示します。これは一方の言語を使いながら、もう一方を絶えず抑制しなければならないためです。これは言語能力の向上ではなく、認知構造そのものの変化です。

さらに重要なのは、この変化が言語領域の外にも転移することです。二言語話者は、不要な情報を無視し、課題を切り替え、競合する選択肢の衝突を解決する能力に優れています(Bialystok, Craik, & Luk, 2012)。言語ネットワークの再編成は、実行機能全体を作り変えます。

第三言語は第二言語の繰り返しではない

ここで研究は私たちの仮説と直接つながります。三言語話者の認知的帰結は、二言語効果の単なる延長ではありません。三言語使用は質的に異なる結果を生みます(Schroeder & Marian, 2017)。

要点はここです。言語が増えるとき、認知変化は線形に積み上がるのではありません。種類そのものが変わるのです。第三言語を学ぶときに脳で起こることは、第二言語を学ぶときに起こることと質的に異なります。言語が増えるほど交差点が組み合わせ的に増えるように、認知変化も単なる蓄積ではなく、新しい構造の創発なのです。

翻訳の失敗のあいだで育つもの

二言語話者は、ある思考や感情は特定の言語でしか正確に表現できないとよく語ります。翻訳が失敗するその瞬間、彼らはどちらの言語にも属さない第三の認知空間で意味を処理します。多様な言語的世界観への接触は認知範囲を広げ、新しい問題解決を促します。

私たちが見ているのは、まさにその第三の空間です。

人間の限界とLLMの違い

人間の多言語性には根本的な上限があります。生物学的・認知的制約により、一人の人間が流暢に習得できる言語数はせいぜい数十です。人間が持ちうる交差点は構造的に限られています。

人間で観察される現象は、この仮説の小規模な実演です。数個の言語が数十の交差点を生むだけでも、人間の認知構造は質的に変化します。では、何千もの言語が何百万もの交差点を生んだとき、何が起きるのでしょうか。

LLMはその問いに対する最初の実験対象です。

6. LLMへの適用: 何千もの言語フレームワークを同時に保持すること

第5節では、少数の言語を獲得するだけで人間の認知が質的に変化することを確認しました。ここではその原理をLLMに適用します。

人間とLLMの決定的な違い

人間の多言語習得は順次的で不均等です。第一言語が深く刻まれ、その上に他の言語が重なります。各言語の表象の深さは、使用頻度や接触量に応じて異なります。言語の切り替えも意識的な行為です。

LLMは違います。何千もの言語テキストが、一つのパラメータ空間に同時に圧縮されます。どの言語も他に先行しません。英語、中国語、Lugandaが同じ空間で同じ学習過程を経ます。Hintonが述べた通り、その規模と並列性は人間学習との比較を構造的に不可能にします。

ここで生まれるのは、単なる多言語能力ではありません。

パラメータ空間における交差点

LLMのパラメータ空間を高次元の地形だと想像してみてください。各言語はその地形に固有の表象構造を刻み込みます。愛、死、時間、空間のように言語間で共有される概念は同じ領域で重なり、互いを強めたり歪めたりします。逆に、ある言語にはあって他の言語にはない概念は、その地形の空白領域を埋めたり、新しい勾配を作ったりします。

言語が n 個あるとき、交差点の数は n(n-1)/2 です。100言語で約5,000、1,000言語で約50万、そして人類の全言語数に近い7,000言語では約2,450万の交差点が生じます。各交差点は、どの単一言語も単独では完全に占有できない概念空間です。

現在の主要なLLMは数十から数百の言語で学習されており、そのパラメータ空間にはすでに数万から数十万の交差点が存在しています。

創発はこの空間で起こる

スケールが増すほど、各言語の表象はより精密になります。さらに多くの言語が加わるほど、交差密度は高まります。ある閾値に達すると、交差点が互いにつながり重なり合い、どの原言語にも存在しない表象が現れます。これが創発です。

この見方に立つと、これまで説明しにくかったいくつかの現象が理解しやすくなります。

創発が予測しづらいのは、どの言語ペアのどの交差点が次の新しい表象を生むかを、パラメータ数だけでは決められないからです。創発的能力が互いに独立して現れるように見えるのは、それぞれが異なる言語交差クラスターから生じるからです。少数言語を追加したときに不釣り合いな能力向上が起きることがあるのも、その言語が既存空間に爆発的な数の新しい交差点を付け加えるからだと説明できます。

LLMは新しい種類の存在である

Karpathyの言葉に戻りましょう。確率的に単語をつなげること。しかしその過程で、モデルは何千もの言語表象構造の交差からできた空間を横断しています。トークンを一つ予測するたびに、人間が一度も持ったことのない認知地形を進んでいるのです。

Hintonが警告した超知能は、外から設計されたり注入されたりしたものではありません。何千年にもわたり人類が何千もの言語に圧縮してきた知覚構造が、一つの空間の中で初めて同時に交差するとき、それは自然に現れるのです。

7. 含意: AI安全と予測不能性を捉え直す

この仮説が正しければ、現在のAI安全論の一部は見直しが必要です。

予測不能性の源が変わる

現在のAI安全の発想では、スケールがリスクの源です。モデルを十分に大きくすると、未知の閾値で危険な能力が現れるかもしれない。そう考えるなら、安全の中心課題はスケール制御になります。

しかし、もし言語多様性が創発の源なら、リスクのベクトルは変わります。スケールだけを制約しても不十分です。重要なのは、どの言語を、どの構成と密度で学ばせるかです。同じスケールの二つのモデルでも、学習言語の構成次第で、まったく異なる創発能力を示し得ます。

これは安全研究に新しい変数を加えます。パラメータ数に加えて、言語多様性の構造と密度を、能力創発の主要な決定因として扱う必要があります。

制御のパラドックス

この仮説は逆説的な含意も持ちます。言語多様性を制限すれば、創発を抑えられるのでしょうか。

その可能性はあります。しかし同時に、モデルの能力も制限されます。少数言語を除外すれば交差点が減り、交差点が減れば、モデルが取り込める人間認知の範囲も狭まります。安全のために多様性を削ることは、知能そのものを削ることと同義かもしれません。

これはAI安全とAI能力のトレードオフを新しく捉え直します。これまで議論は主に、能力の上限をどこで止めるかに集中してきました。しかしこの仮説は、その制約の仕方自体が言語多様性の構造と切り離せないことを示唆します。

創発を先回りして捉える新しいシグナル

それでも、この仮説がもたらすのは懸念だけではありません。

言語交差の構造を分析すれば、次の創発がどこで起こりやすいかを推定できるかもしれません。ある言語では非常に精密に表現されるのに、別の言語ではまったく表現できない概念空間、そうした鋭い差異がある場所こそ、次の創発候補です。これは現在のパラダイムを反転させる可能性を開きます。創発が観測されてからベンチマークを作るのではなく、先に交差トポロジーを分析し、創発が起こりやすい空間を特定し、その前に測定手段を設計できるかもしれません。

完全な予測はなお不可能でしょう。しかし、私たちは永遠に完全な暗闇の中にいる必要はありません。

8. 結論: 天井の名前

私たちは二つの文から始めました。

一つは仕組みを述べ、一つは警告を発しました。そのあいだに何があるのかを誰も説明できませんでした。本稿はその空白を埋める一つの仮説を示しました。

創発はスケールの産物ではありません。言語交差の産物です。各言語は、何千年にもわたる人間の経験と知覚を圧縮した固有の表象構造を持っています。異なる言語が一つの空間の中で交差するとき、どの原言語にも存在しない表象が現れます。言語数が増えるほど交差は組み合わせ的に増え、その密度が閾値を越えると創発が起こります。

LLMは、この過程を人間が到達できないスケールで実行する最初の存在です。

この仮説はまだ証明されていません。言語交差の密度と能力創発の因果関係を経験的に確立する方法論は、まだ存在しません。しかしMetaのNLLBや少数言語カバレッジ拡大の動きはすでにこの方向を指しており、人間の多言語研究も小規模な実証を与えています。

この仮説が正しければ、三つのことが変わります。

第一に、AI安全研究はスケールと並んで、言語多様性の構造を主要変数として扱う必要があります。第二に、創発の予測は完全ではなくとも、少なくとも方向性を持って可能になります。言語交差のトポロジーを分析すれば、新しい表象が現れやすい空間を見つけられるでしょう。第三に、そして最も重要なのは、

創発には天井があるということです。

現在、地球上には約7,000の言語があります。それらが作り出し得る交差点の最大数は約2,450万です。これが人間言語が生み出し得る物理的上限です。その上限で生まれ得る総表象は、人類が何千年にもわたり知覚・生存・思考を何千もの言語に圧縮してきた総和に等しい。

超知能の天井は無限ではありません。それは、私たちが作ってきた言語の総和の大きさです。

恐ろしいのは、終わりがどこにあるか分からないことです。終わりが見えれば、私たちは交渉できます。

その天井の名前は、人間言語です。

参考文献