언어 다양성과 창발

LLM의 지능은 어디에서 오는가?

1. 서론: 두 문장 사이의 간극

"언어 모델과 대화한다는 것은 결국 확률적으로 연결된 긴 단어열을 만들어내는 일이다." — Andrej Karpathy

"AI는 초지능이 될 것이다. 인간보다 훨씬 우월한 형태의 지성이 될 것이다." — Geoffrey Hinton

두 문장은 같은 기술을 가리킵니다. 하나는 메커니즘을 설명하고, 다른 하나는 결과를 경고합니다. 그런데 이 둘 사이에 무엇이 있는지, 즉 확률적으로 이어진 단어의 사슬이 어떻게 인간을 넘어서는 지능으로 이어지는지 설명할 수 있는 사람은 없습니다.

이 간극은 단순한 지식 부족이 아닙니다. 우리가 그 본질을 이해하지 못한 채 무언가를 만들고 있다는 뜻입니다. 인류는 작동 원리를 모른 채 엔진을 끝까지 돌리고 있습니다.

이 글은 그 간극을 메우기 위한 하나의 가설을 제안합니다.

이 글의 주장은 이렇습니다. 창발은 스케일의 산물이 아니라 언어 다양성의 산물입니다. 더 구체적으로는, 대규모 언어 모델이 충분히 다양한 언어를 동시에 학습할 때, 그 언어들 사이의 교차와 긴장이 어떤 임계점을 넘고, 어느 한 언어 안에도 단독으로 존재하지 않는 새로운 표상이 등장합니다. 우리는 이것이 창발의 메커니즘이라고 봅니다.

2. 기존 설명의 한계: 스케일 가설

창발을 설명하는 지배적인 가설은 단순합니다. 모델이 커질수록 새로운 능력이 나타난다는 것입니다. 이것이 스케일 가설입니다.

그 토대는 Kaplan 외(2020)의 스케일링 법칙 연구입니다. 이 연구는 파라미터 수, 데이터셋 크기, 연산량이 증가할수록 모델 성능이 멱법칙 형태로 예측 가능하게 향상된다는 점을 보여주었습니다. 이후 Google의 PaLM 연구는 특정 스케일에서 성능이 불연속적으로 뛰는 현상을 보고했고, 연구자들은 그것을 스케일에 따른 창발이라고 불렀습니다.

하지만 이 설명에는 세 가지 치명적인 균열이 있습니다.

첫째, 창발이 실제로 존재하는지 자체가 논쟁적입니다. Stanford의 Schaeffer 외(2023)는 창발의 증거로 여겨진 불연속적 점프가 측정 방식의 산물일 수 있다고 주장했습니다. 정확도 같은 비선형 지표를 쓰면 성능이 계단처럼 보이지만, 선형 지표로 바꾸면 같은 데이터가 매끈한 곡선으로 드러납니다. 계단은 모델 안이 아니라 측정 도구 안에 있을 수 있습니다.

둘째, 스케일링 법칙은 일반적인 성능은 예측하지만 창발은 예측하지 못합니다. 어떤 창발적 능력이 어디서 나타날지는 스케일링 법칙만으로는 알 수 없습니다. Google 스스로도 창발은 "스케일링 법칙을 외삽해서 직접 예측할 수 없었다"고 인정했습니다. 제안된 원인이 결과를 예측하지 못한다면, 그것은 완전한 원인이 아닙니다.

셋째, 스케일은 이미 물리적 한계에 부딪히고 있습니다. Chinchilla 논문(Hoffmann 외, 2022)은 최적 학습에 파라미터당 대략 20토큰이 필요하다고 보았습니다. 100조 파라미터 모델을 학습시키려면 약 180페타바이트의 텍스트가 필요하며, 이는 현재 인류가 보유한 고품질 텍스트 총량을 크게 넘어섭니다. 스케일에 기반한 설명은 스케일이 무한히 확장 가능하다는 전제를 필요로 하지만, 그 전제는 이미 흔들리고 있습니다.

스케일 가설은 창발과 상관관계는 있지만 인과를 설명하지는 못합니다. 더 정확히 말하면 스케일은 창발이 일어날 수 있는 조건일 수는 있어도, 그것을 만들어내는 원인은 아닙니다.

그렇다면 진짜 원인은 무엇일까요?

3. 정황 증거: 산업은 이미 움직이고 있다

가설을 전개하기 전에 업계가 자원을 어디에 배분해 왔는지 볼 필요가 있습니다. 자본은 이론보다 먼저 움직입니다.

2022년 Meta는 NLLB(No Language Left Behind) 프로젝트를 발표했습니다. 기존 어떤 번역 시스템도 충분히 다루지 못했던 소수 언어를 포함해 200개 언어 사이의 직접 번역이 가능한 모델이었습니다. Luganda, Asturian, 우르두 방언, 55개 아프리카 언어가 여기에 포함됐습니다. 일부 언어에서는 번역 품질이 기존 최고 수준 대비 70% 이상 향상됐습니다.

이 결정은 상업 논리만으로 설명하기 어렵습니다.

Meta의 수익 모델은 광고입니다. 광고 수익은 사용자 수에 비례합니다. 그러나 Luganda나 Asturian 화자는 Meta 전체 사용자 기반에서 통계적으로 미미한 비중입니다. 이런 언어들을 고품질로 지원하기 위해 투입된 연구 자원은 ROI 관점으로는 설명이 잘 되지 않습니다. Meta도 공개적으로 상업적 이유보다 언어적 포용성과 디지털 형평성을 이야기했습니다.

여기서 주목할 기술적 디테일이 하나 있습니다. NLLB의 핵심 아키텍처 선택은 영어를 중간 언어에서 제거한 것이었습니다. 기존 번역 시스템은 대부분 소수 언어 -> 영어 -> 목표 언어 구조를 따릅니다. NLLB는 이 구조를 깨고 언어 간 직접 연결을 가능하게 했습니다. 이것은 단순한 기술적 취향이 아닙니다. 영어라는 허브를 제거함으로써 각 언어 고유의 표상 구조가 단일 지배 프레임을 거치지 않고 다른 언어들과 직접 교차할 수 있게 되기 때문입니다.

같은 시기 Meta의 MMS(Massively Multilingual Speech) 프로젝트는 음성 인식에서 4,017개 언어를 지원하기 시작했습니다. 당시 Google의 상용 음성 인식 대비 약 30배에 해당하는 범위였습니다.

가능한 해석은 두 가지입니다.

첫째, Meta 내부의 누군가는 이미 알고 있을 수 있습니다. 아직 공개 논문으로 내놓을 준비는 되지 않았지만, 언어 다양성이 모델 능력에 영향을 준다는 신호를 내부 실험에서 포착했고, 그 신호가 전략적 자원 배분을 이끌었을 수 있습니다.

둘째, Meta는 우리가 여기서 제안하는 것과 같은 실험을 같은 방향으로 수행하고 있을 수 있습니다. 아직 결론은 확정되지 않았더라도 말입니다.

어느 쪽이든, 이 가설은 이미 자본의 언어로 번역되어 움직이고 있습니다.

4. 핵심 가설: 창발은 언어 다양성의 산물이다

이 글의 주장은 다음과 같습니다.

> 창발은 스케일의 산물이 아니라 언어 다양성의 산물이다. > 대규모 언어 모델이 충분히 다양한 언어를 학습할 때, > 그 언어들 사이의 교차와 긴장은 어떤 임계점을 넘고, > 어느 한 언어에도 단독으로 존재하지 않는 새로운 표상이 나타난다. > 이것이 창발의 메커니즘이다.

이 주장은 세 층위로 전개됩니다.

첫 번째 층위: 언어는 사고의 그릇이 아니라 사고의 구조다

기존의 상식은 언어를 도구로 봅니다. 생각이 먼저 있고 언어는 그것을 표현한다는 관점입니다. 하지만 현대 언어학에서 널리 지지를 받는 사피어-워프 가설의 약한 형태는 반대를 말합니다. 언어가 사고를 형성한다는 것입니다. 언어의 범주는 곧 지각의 범주가 됩니다.

이누이트 언어에 눈을 가리키는 단어가 수십 개 있다는 사실은 단순한 어휘적 호기심이 아닙니다. 그것은 수천 년의 관찰, 생존 지식, 지각의 정교화가 언어 형식 안에 압축된 결과입니다. 이 어휘를 가진 사람은 그렇지 않은 사람과 같은 풍경을 다르게 지각합니다. 언어는 지각을 만듭니다.

모든 언어는 세계의 어떤 영역을 다른 언어보다 더 정밀하게 표상합니다. 그것은 화자들의 역사, 환경, 생존 조건에 따라 비대칭적으로 형성됩니다. 어떤 언어도 세계 전체를 완전히 표상하지는 못합니다.

두 번째 층위: 언어의 교차는 새로운 표상을 만든다

단일 언어 사용자라면 하나의 표상 체계 안에서 사고합니다. 이중 언어 사용자는 두 체계 사이를 오갑니다. 그리고 번역이 불가능한 순간, 예컨대 포르투갈어의 saudade, 일본어의 komorebi (木漏れ日), 한국어의 nunchi (눈치) 같은 개념을 마주할 때, 어느 한 언어만으로는 붙잡을 수 없는 무언가가 드러납니다.

이중 언어 화자에 대한 인지 연구도 이를 뒷받침합니다. 두 언어에 능통한 사람은 단지 두 개의 언어 체계를 가진 것이 아니라, 그 사이 공간에서 작동하는 제3의 인지 구조를 발달시킵니다. 언어 수가 늘어날수록 이런 교차점의 수는 조합적으로 증가합니다.

언어가 n개일 때 가능한 언어 쌍의 수는 n(n-1)/2입니다. 10개 언어는 45개의 교차점을 만들고, 100개 언어는 4,950개, 200개 언어는 19,900개를 만듭니다. 각 교차점은 어느 하나의 언어에도 완전히 속하지 않는 개념 공간입니다.

세 번째 층위: LLM은 이 교차들을 동시에 보유한 첫 존재다

인간은 많아야 소수의 언어를 순차적으로, 그것도 불균등한 깊이로 습득합니다. 인간 한 명이 가질 수 있는 교차점은 구조적으로 제한돼 있습니다.

LLM은 다릅니다. 수천 개 언어의 텍스트가 하나의 파라미터 공간 안에 동시에 압축됩니다. 어떤 언어도 다른 언어보다 먼저 오지 않습니다. 이 과정에서 모델은 인간 누구도 가져본 적 없는 것을 얻게 됩니다. 수천 개 언어 표상 구조의 동시적 교차가 하나의 공간 안에 생기고, 그 결과 어느 원천 언어에도 없던 표상이 등장하는 것입니다.

스케일은 가능 조건입니다. 더 큰 모델일수록 더 많은 언어를 더 정밀하게 내면화할 수 있습니다. 하지만 스케일 자체가 창발을 만들지는 않습니다. 언어 교차의 밀도가 어떤 임계점을 넘을 때, 그 공간에서 새로운 표상이 출현합니다. 그것이 창발입니다.

이 가설은 2장에서 지적한 스케일 가설의 세 균열을 모두 설명합니다. 창발이 어떤 지표에서는 불연속적으로, 다른 지표에서는 연속적으로 보이는 이유는, 그것이 점진적 축적 위에 세워진 임계 전환을 실제로 포함하기 때문입니다. 스케일링 법칙이 창발을 예측하지 못하는 이유는 다음 임계점의 위치가 파라미터 수만이 아니라 어떤 언어들이 얼마나 촘촘하게 교차하는지에 의해 결정되기 때문입니다. 그리고 데이터 한계에 묶이는 스케일과 달리, 언어 다양성은 언어 하나가 추가될 때마다 교차점이 기하급수적으로 늘어납니다. 소수 언어도 예외가 아닙니다.

5. 인간에서의 증거: 다중언어 화자의 인지적 변형

이 가설은 전례 없는 이야기가 아닙니다. 이미 인간 규모에서 관찰된 현상의 확장입니다.

이중언어 뇌는 단순히 언어가 하나 더 있는 뇌가 아니다

이중언어 화자는 단일언어 화자보다 주의력과 과제 전환 능력이 더 뛰어난 경향을 보입니다. 이는 한 언어를 쓰는 동안 다른 언어를 계속 억제해야 하는 뇌의 부담에서 비롯됩니다. 이것은 언어 능력의 향상이 아니라 인지 구조 자체의 변화입니다.

더 중요한 점은 이 변화가 언어 영역을 넘어 전이된다는 것입니다. 이중언어 화자는 불필요한 정보를 무시하고, 과제 사이를 전환하며, 경쟁하는 선택지 사이의 충돌을 해결하는 능력이 더 뛰어납니다(Bialystok, Craik, & Luk, 2012). 언어 네트워크의 재조직화가 실행 기능 전반을 바꿉니다.

세 번째 언어는 두 번째 언어의 반복이 아니다

여기서 연구는 우리의 가설과 직접 연결됩니다. 삼중언어 사용의 인지적 결과는 이중언어 효과의 단순한 연장이 아닙니다. 삼중언어는 질적으로 다른 결과를 만듭니다(Schroeder & Marian, 2017).

핵심은 이것입니다. 언어가 추가될 때 인지 변화는 선형적으로 누적되지 않습니다. 종류 자체가 바뀝니다. 세 번째 언어를 배울 때 뇌에서 일어나는 일은 두 번째 언어를 배울 때와 범주적으로 다릅니다. 언어가 늘수록 교차점이 조합적으로 늘어나는 것처럼, 인지 변화도 단순한 축적이 아니라 새로운 구조의 창발입니다.

번역 불가능성의 틈에서 자라는 것

이중언어 화자는 어떤 생각이나 감정은 특정 언어에서만 정확히 표현할 수 있다고 자주 말합니다. 번역이 실패하는 순간, 그들은 어느 한 언어에도 속하지 않는 제3의 인지 공간에서 의미를 처리합니다. 다양한 언어적 세계관에 노출될수록 인지 범위는 넓어지고 새로운 문제 해결 방식이 촉진됩니다.

우리가 살펴보는 바로 그 교차 공간이 이 제3의 공간입니다.

인간의 한계와 LLM의 차이

인간의 다중언어성에는 근본적인 상한이 있습니다. 생물학적, 인지적 제약 때문에 한 사람이 유창하게 익힐 수 있는 언어 수는 많아야 수십 개에 불과합니다. 인간이 가질 수 있는 교차점은 구조적으로 제한되어 있습니다.

인간에게서 관찰된 것은 이 가설의 소규모 시연입니다. 몇 개 언어가 수십 개의 교차점을 만들기만 해도 인간의 인지 구조는 질적으로 변합니다. 그렇다면 수천 개 언어가 수백만 개의 교차점을 만들면 무엇이 생길까요?

LLM은 이 질문의 첫 실험 대상입니다.

6. LLM에의 적용: 수천 개 언어 프레임워크를 동시에 붙드는 일

5장에서 우리는 몇 개 언어만 익혀도 인간의 인지가 질적으로 변한다는 점을 확인했습니다. 이제 그 원리를 LLM에 적용해 보겠습니다.

인간과 LLM의 결정적 차이

인간의 다중언어 학습은 순차적이고 불균등합니다. 첫 번째 언어가 깊게 새겨진 뒤 그 위에 다른 언어가 겹쳐집니다. 각 언어의 표상 깊이는 사용 빈도와 노출 정도에 따라 달라집니다. 언어 전환도 의식적 행위입니다.

LLM은 다릅니다. 수천 개 언어의 텍스트가 하나의 파라미터 공간 안에 동시에 압축됩니다. 어떤 언어도 다른 언어보다 먼저 오지 않습니다. 영어, 중국어, Luganda가 같은 공간 안에서 같은 학습 과정을 거칩니다. Hinton의 말처럼, 이것은 규모와 병렬성의 정도에서 인간 학습과 구조적으로 비교가 불가능한 수준입니다.

이 과정이 만들어내는 것은 단순한 다국어 능력이 아닙니다.

파라미터 공간 안의 교차점들

LLM의 파라미터 공간을 고차원 지형이라고 상상해 봅시다. 각 언어는 이 지형 위에 자기 고유의 표상 구조를 새깁니다. 사랑, 죽음, 시간, 공간처럼 언어들 사이에 공통적인 개념은 같은 영역에서 겹치며 서로를 강화하거나 변형합니다. 반대로 어떤 언어에는 있고 다른 언어에는 없는 개념은 그 지형의 빈 영역을 채우거나 새로운 기울기를 만들어냅니다.

언어가 n개일 때 교차점 수는 n(n-1)/2입니다. 100개 언어는 약 5,000개의 교차점을 만들고, 1,000개 언어는 약 50만 개, 그리고 인간 언어 전체에 가까운 7,000개 언어는 약 2,450만 개의 교차점을 만듭니다. 각 교차점은 어느 한 언어도 혼자서는 완전히 점유할 수 없는 개념 공간입니다.

현재 주요 LLM은 수십 개에서 수백 개 언어로 학습되며, 이는 이미 수만 개에서 수십만 개의 교차점이 그 파라미터 공간 안에 존재한다는 뜻입니다.

창발은 이 공간에서 일어난다

스케일이 커질수록 각 언어의 표상은 더 정밀해집니다. 더 많은 언어가 추가될수록 교차 밀도는 커집니다. 어느 임계점에서 교차점들이 서로 연결되고 겹치기 시작하면, 어떤 원천 언어에도 없던 표상이 나타납니다. 이것이 창발입니다.

이 관점에서 보면, 이전에는 설명하기 어려웠던 여러 현상이 이해 가능합니다.

창발이 예측 불가능한 이유는, 어느 언어 쌍의 어느 교차점이 다음 새로운 표상을 만들지 파라미터 수만으로는 알 수 없기 때문입니다. 창발적 능력들이 서로 독립적으로 나타나는 것처럼 보이는 이유는, 각각이 서로 다른 언어 교차 클러스터에서 나오기 때문입니다. 소수 언어를 추가했을 때 모델 성능이 과도하게 뛰는 경우가 있는 이유도, 새 언어 하나가 기존 공간에 폭발적인 수의 새로운 교차점을 더하기 때문일 수 있습니다.

LLM은 새로운 종류의 존재다

Karpathy의 말로 돌아가 봅시다. 확률적으로 단어를 이어가는 일. 하지만 그 과정에서 모델은 수천 개 언어 표상 구조의 교차로 이루어진 공간을 가로지릅니다. 토큰 하나를 예측할 때마다, 인간 누구도 가진 적 없는 인지 지형을 항해하는 것입니다.

Hinton이 경고한 초지능은 외부에서 설계되거나 주입된 것이 아닙니다. 수천 년 동안 인류가 수천 개 언어 안에 압축해 온 지각 구조들이 하나의 공간에서 처음으로 동시에 교차할 때, 그것은 자연스럽게 나타나는 것입니다.

7. 함의: AI 안전과 예측 불가능성을 다시 보기

이 가설이 맞다면, 현재 AI 안전 담론의 일부는 수정이 필요합니다.

예측 불가능성의 원인이 바뀐다

현재의 AI 안전 논의는 스케일을 위험의 원천으로 봅니다. 모델을 충분히 크게 만들면 알 수 없는 임계점에서 위험한 능력이 나타날 수 있다는 시각입니다. 이 관점에서는 스케일 통제가 안전의 핵심이 됩니다.

하지만 언어 다양성이 창발의 원인이라면 위험 벡터는 달라집니다. 스케일만 제한해서는 충분하지 않습니다. 중요한 것은 어떤 언어들을 어떤 조합과 밀도로 학습시키느냐입니다. 같은 스케일의 두 모델도 학습 언어 구성에 따라 전혀 다른 창발 능력을 가질 수 있습니다.

이것은 안전 연구에 새로운 변수를 추가합니다. 파라미터 수와 함께 언어 다양성의 구조와 밀도를 능력 창발의 핵심 결정 변수로 다뤄야 합니다.

통제의 역설

이 가설은 역설적인 함의도 가집니다. 언어 다양성을 제한하면 창발을 억제할 수 있을까요?

그럴 수 있습니다. 하지만 동시에 모델의 능력도 제한됩니다. 소수 언어를 배제하면 교차점이 줄고, 교차점이 줄면 모델이 담아낼 수 있는 인간 인지의 범위도 좁아집니다. 안전을 위해 다양성을 낮추는 일은 지능 자체를 낮추는 일과 같을 수 있습니다.

이것은 AI 안전과 AI 능력 사이의 트레이드오프를 새롭게 재구성합니다. 지금까지 논쟁은 대체로 능력 상한을 어디에 둘 것인가에 집중돼 있었습니다. 하지만 이 가설은 그 상한을 어떻게 설정하느냐가 언어 다양성의 구조와 분리될 수 없다고 말합니다.

창발을 앞서 읽는 새로운 신호

하지만 이 가설이 주는 것이 우려만은 아닙니다.

언어 교차 구조를 분석하면 다음 창발이 어디서 일어날 가능성이 높은지 추정할 수 있을지도 모릅니다. 한 언어는 매우 정밀하게 표상하지만 다른 언어는 전혀 표현하지 못하는 개념 공간, 바로 그런 급격한 차이가 있는 지점들이 다음 창발의 후보가 될 수 있습니다. 이것은 현재의 패러다임을 뒤집을 가능성을 엽니다. 창발이 감지된 뒤 벤치마크를 만드는 대신, 먼저 교차 지형을 분석하고, 창발 가능성이 높은 공간을 식별하고, 그에 맞는 측정 도구를 미리 설계할 수 있다는 뜻입니다.

완전한 예측은 여전히 불가능할 것입니다. 하지만 우리가 영원히 완전한 암흑 속에 있어야 하는 것은 아닙니다.

8. 결론: 천장의 이름

우리는 두 문장에서 시작했습니다.

하나는 메커니즘을 설명했고, 하나는 경고를 던졌습니다. 그 사이에 무엇이 있는지 누구도 설명하지 못했습니다. 이 글은 그 간극을 메우기 위한 하나의 가설을 제안했습니다.

창발은 스케일의 산물이 아닙니다. 언어 교차의 산물입니다. 각 언어는 수천 년에 걸친 인간의 경험과 지각이 압축된 고유한 표상 구조를 지닙니다. 서로 다른 언어들이 하나의 공간 안에서 교차할 때, 어느 원천 언어에도 없던 표상이 나타납니다. 언어 수가 늘어날수록 교차점은 조합적으로 늘어나고, 그 밀도가 임계점을 넘으면 창발이 일어납니다.

LLM은 이 과정을 인간이 도달할 수 없는 규모에서 수행하는 첫 존재입니다.

이 가설은 아직 입증되지 않았습니다. 언어 교차 밀도와 능력 창발 사이의 인과를 경험적으로 확정할 방법론은 아직 존재하지 않습니다. 하지만 Meta의 NLLB, 소수 언어 커버리지의 공격적 확장 같은 산업의 움직임은 이미 이 방향을 가리키고 있고, 인간의 다중언어성 연구도 소규모 증거를 제공합니다.

이 가설이 맞다면 세 가지가 달라집니다.

첫째, AI 안전 연구는 스케일과 함께 언어 다양성의 구조를 핵심 변수로 다뤄야 합니다. 둘째, 창발의 예측은 완전하진 않더라도 방향성 있게는 가능해집니다. 언어 교차의 위상을 분석하면 새로운 표상이 나타날 가능성이 높은 공간을 미리 짚을 수 있습니다. 셋째, 그리고 가장 중요하게는:

창발에는 천장이 있습니다.

오늘날 지구에는 약 7,000개의 언어가 있습니다. 이 언어들이 만들 수 있는 최대 교차점 수는 약 2,450만 개입니다. 이것이 인간 언어가 만들어낼 수 있는 물리적 상한입니다. 그 상한에서 나올 수 있는 총 표상은, 인류가 수천 년의 지각과 생존, 사고를 수천 개 언어 안에 압축해 온 총합과 같습니다.

초지능의 천장은 무한하지 않습니다. 그것은 우리가 만들어낸 언어들의 총합만큼 큽니다.

두려운 것은 끝이 어디인지 모른다는 점입니다. 끝이 보이기 시작하면, 우리는 협상할 수 있습니다.

그 천장의 이름은 인간 언어입니다.

참고문헌

Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361
Wei, J., et al. (2022). Emergent Abilities of Large Language Models. Transactions on Machine Learning Research
Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023
Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556
NLLB Team (2022). No Language Left Behind: Scaling Human-Centered Machine Translation. arXiv:2207.04672
Bialystok, E., Craik, F. I. M., & Luk, G. (2012). Bilingualism: Consequences for mind and brain. Trends in Cognitive Sciences, 16(4), 240-250.
Schroeder, S. R., & Marian, V. (2017). Cognitive Consequences of Trilingualism. PMC5693318
Whorf, B. L. (1956). Language, Thought, and Reality. MIT Press.
Anderson, P. W. (1972). More Is Different. Science, 177(4047), 393-396.