월드 모델의 시대가 열린다
V-JEPA, ChatGPT 다음을 보는 AI
얀 르쿤이 그리는 자율 기계 지능(AMI)의 청사진, 그리고 그 첫 번째 결과물
ChatGPT가 세상을 바꿨다는 말은 이제 진부합니다. 하지만 정작 메타(Meta)의 수석 AI 과학자였던 얀 르쿤(Yann LeCun)은 오래전부터 한결같이 말해왔습니다. "현재의 LLM(거대 언어 모델)으로는 진짜 지능에 도달할 수 없다"고 말이죠.
그리고 그가 제안한 대안이 바로 JEPA(Joint Embedding Predictive Architecture, 결합 임베딩 예측 아키텍처)입니다. 2025년 6월, 메타가 이 아키텍처의 두 번째 버전인 V-JEPA 2를 공개하면서, AI 업계의 시선은 다시 한번 "월드 모델(World Model)"이라는 키워드로 모이고 있습니다.
이 글에서 다룰 내용
① 생성형 AI의 근본적 한계 ② 월드 모델이란 무엇인가 ③ JEPA 아키텍처의 핵심 원리 ④ V-JEPA 2의 성능과 로봇 응용 ⑤ 우리에게 주는 시사점
1. ChatGPT는 왜 물리 세계를 이해하지 못할까
얀 르쿤의 비판은 직설적입니다. "LLM은 다음에 올 토큰의 확률을 예측할 뿐, 세상이 어떻게 작동하는지 모른다"는 것이죠.
예를 들어 보겠습니다. 4살짜리 아이는 컵을 식탁 모서리에 두면 떨어진다는 것을 압니다. 누가 가르쳐주지 않아도 압니다. 수천 시간 동안 세상을 "보면서" 중력, 관성, 인과관계를 몸으로 익혔기 때문입니다.
반면 ChatGPT는 "컵이 식탁 모서리에 있으면 떨어진다"는 문장을 수백만 번 학습해서 그 텍스트를 생성할 수 있을 뿐입니다. 르쿤의 표현을 빌리면, "통계적으로 그럴듯한 연속을 예측하는 것은 이해와 근본적으로 다르다"는 겁니다.
생성형 AI의 또 다른 문제는 오차의 지수적 누적입니다. 토큰을 한 개씩 생성할 때마다 미세한 오차가 발생하는데, 긴 시퀀스를 만들수록 이 오차가 곱하기로 커집니다. Sora 같은 영상 생성 모델이 몇 초가 지나면 물리 법칙을 어기기 시작하는 이유가 여기에 있습니다.
2. 월드 모델: AI가 머릿속에 그리는 세상
월드 모델(World Model)은 한 마디로 "AI 머릿속의 시뮬레이터"입니다.
관찰 → 행동을 직접 매핑하는 대신, AI가 먼저 "세상이 어떻게 변할지" 예측하는 내부 모델을 학습합니다. 그리고 그 모델 안에서 여러 행동을 시뮬레이션해 본 뒤, 가장 좋은 결과를 가져올 행동을 선택하는 것이죠.
메타는 월드 모델이 다음 세 가지 핵심 능력을 제공한다고 설명합니다.
① 이해(Understanding)
영상을 보고 "지금 무슨 일이 벌어지고 있는지" 파악
② 예측(Prediction)
"다음에 무슨 일이 벌어질지" 추론
③ 계획(Planning)
원하는 결과를 만들기 위한 "행동 시퀀스" 설계
이 세 능력의 조합이 바로 르쿤이 말하는 AMI(Advanced Machine Intelligence, 자율 기계 지능)의 토대입니다. 단순히 텍스트를 잘 생성하는 AI를 넘어, 물리 세계에서 실제로 행동할 수 있는 AI 에이전트를 만드는 것이 목표입니다.
3. JEPA: 픽셀이 아니라 "개념"을 예측한다
JEPA의 핵심 아이디어는 한 줄로 요약됩니다.
"픽셀이나 토큰을 예측하지 말고,
추상적 표현(embedding)을 예측하라"
기존 생성형 모델은 픽셀 하나하나, 토큰 하나하나를 정확히 재구성하려고 합니다. 하지만 영상에서 나뭇잎이 정확히 어떤 방향으로 흔들릴지는 본질적으로 예측 불가능하죠. 그런데도 픽셀 단위로 맞추려고 하면, 모델은 본질이 아닌 디테일에 에너지를 낭비하게 됩니다.
JEPA는 다릅니다. 입력을 받으면 먼저 인코더(encoder)가 그것을 추상적인 표현으로 압축합니다. 그리고 예측기(predictor)가 "다음 표현이 어떻게 될지"를 그 추상 공간 안에서 맞추는 거죠.
비유하자면, 영화를 본 뒤 친구에게 "그 장면은 주인공이 결심을 굳히는 장면이었어"라고 요약해서 전달하는 것과, 모든 픽셀을 그대로 다시 그려서 보여주는 것의 차이입니다. 본질만 잡으면 훨씬 적은 비용으로 더 깊이 이해할 수 있습니다.
JEPA 가족의 진화
JEPA는 단일 모델이 아니라 일종의 "아키텍처 가족"입니다.
- I-JEPA (2023): 이미지 기반. 같은 이미지의 일부를 가리고 나머지로 가린 부분의 표현을 예측
- V-JEPA (2024): 영상 기반. 시간 차원이 추가되어 "물리적 변화"를 학습
- V-JEPA 2 (2025): 100만 시간 영상 + 100만 장 이미지로 사전학습한 12억 파라미터 모델
4. V-JEPA 2: 로봇이 처음 보는 물건을 집어 든다
V-JEPA 2의 가장 인상적인 결과는 제로샷(Zero-shot) 로봇 제어입니다.
학습은 이렇게 진행됐습니다.
- 1단계 사전학습: 100만 시간 이상의 인터넷 영상으로 V-JEPA 2 인코더를 자기지도학습
- 2단계 후처리: DROID 데이터셋의 단 62시간 분량의 로봇 영상을 사용해, 행동 조건부 예측기인 V-JEPA 2-AC를 학습
그 결과는? 학습 데이터에 전혀 등장하지 않았던 두 곳의 연구실에서, Franka Emika Panda 로봇 팔이 처음 보는 물건을 집어서 원하는 위치에 놓는 작업을 성공적으로 수행했습니다.
📊 성능 수치
• Something-Something v2 (동작 이해): 77.3% top-1 정확도
• Epic-Kitchens-100 (행동 예측): 39.7 recall@5 (SOTA)
• 컵 들어 옮기기 (제로샷): 80% 성공률 (비교군 Octo는 15%)
• 행동당 계획 시간: 16초 (Nvidia Cosmos 모델은 4분)
특히 주목할 점은 속도입니다. 영상 생성 기반 월드 모델인 Nvidia의 Cosmos가 행동 하나를 계획하는 데 4분이 걸리는 반면, V-JEPA 2는 16초 만에 같은 일을 해냅니다. 픽셀을 그리지 않고 추상 표현만 다루는 JEPA의 효율성이 그대로 드러납니다.
5. 로봇은 어떻게 "계획"하는가
V-JEPA 2-AC가 작업을 수행하는 방식은 다음과 같습니다.
- 목표 지정: 사용자가 "이런 상태가 되었으면 좋겠다"는 이미지를 한 장 제공합니다.
- 현재 인식: 인코더가 현재 상태와 목표 상태를 각각 임베딩(추상 표현)으로 변환합니다.
- 상상하기: 예측기가 "이 행동을 하면 다음 상태가 어떻게 될지"를 임베딩 공간에서 시뮬레이션합니다.
- 최적 선택: 여러 후보 행동 중 목표 임베딩과 가장 가까워지는 행동을 선택합니다.
- 반복: 매 스텝마다 이 과정을 다시 실행하며 목표에 다가갑니다 (Model Predictive Control, MPC).
이것이 바로 르쿤이 말하는 "행동하기 전에 생각하는 AI"입니다. 단순 반응이 아니라, 머릿속으로 결과를 예측한 뒤 행동을 결정하는 것이죠.
6. 우리에게 주는 시사점
V-JEPA 2가 시사하는 바는 단순히 "메타가 새 모델을 냈다"가 아닙니다.
첫째, AI 패러다임의 분기점입니다. 지난 몇 년간 AI 발전은 "더 큰 모델, 더 많은 데이터, 더 많은 컴퓨팅"이라는 스케일링에 집중되어 왔습니다. 그러나 르쿤의 길은 다릅니다. "올바른 아키텍처와 목적 함수"가 더 중요하다는 주장입니다. 12억 파라미터의 V-JEPA 2가 훨씬 큰 영상 생성 모델들을 앞서는 결과가 이를 뒷받침합니다.
둘째, 로보틱스의 진정한 도약입니다. 지금까지 로봇은 "각 작업마다 별도 학습"이 필요했습니다. V-JEPA 2-AC는 인터넷 영상으로 세상을 먼저 배우고, 약간의 로봇 데이터로 행동을 학습한 뒤, 처음 보는 환경에서도 작업을 수행합니다. 가정용 로봇이 현실이 되는 길이 보이기 시작했습니다.
셋째, 오픈소스 생태계의 확장입니다. 메타는 V-JEPA 2를 오픈소스로 공개했고, 새로운 물리 추론 벤치마크 세 가지도 함께 발표했습니다. 개발자와 연구자들은 이를 기반으로 자체 월드 모델을 구축할 수 있게 되었습니다.
마치며: 다음 시대의 AI는 "보고, 예측하고, 행동한다"
ChatGPT가 보여준 것은 "언어를 다루는 AI"의 가능성이었습니다. V-JEPA 2가 보여주는 것은 "세상을 다루는 AI"의 시작점입니다.
물론 갈 길은 멉니다. 르쿤 본인도 "AMI는 5년에서 10년이 걸릴 것"이라고 말합니다. 흥미롭게도 그는 2025년 메타를 떠나 AMI Labs라는 새로운 회사를 공동 창업하며, 이 비전을 더 빠르게 실현하려 하고 있습니다.
하지만 방향은 분명해졌습니다. 다음 시대의 AI는 텍스트를 잘 생성하는 것을 넘어, 세상을 이해하고 행동을 계획하는 AI가 될 것입니다.
그리고 그 첫 단추는 이미 끼워졌습니다.
💡 한 줄 요약
V-JEPA 2는 "픽셀이 아닌 개념을 예측하는" 자기지도 월드 모델로, 100만 시간의 영상으로 세상을 배우고 단 62시간의 로봇 데이터만으로 처음 보는 환경에서 작업을 수행한다. 생성형 AI 다음의 길, "이해하고 계획하는 AI"가 여기서 시작된다.
참고 자료
• Meta AI, "Introducing V-JEPA 2 world model and new benchmarks" (2025.06)
• arXiv 2506.09985, "V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning"
• Yann LeCun, "A Path Towards Autonomous Machine Intelligence" (2022)