AI 시대에서 데이터 분석을 한다는 것은 무엇일까
안녕하세요, HEARTCOUNT의 기획자 David입니다.
지난 글 LLM 시대, 데이터 분석에서 통계학은 여전히 유용할까?에서는 AI가 코드 작성과 계산을 자동화하는 시대에도, 인간 고유의 '통계적 사고(Statistical Thinking)'가 왜 여전히 필수적인지에 대해 다루었습니다. LLM은 과거 데이터의 패턴을 학습한 '확률적 도구'로서 반사실적 사고(Counterfactual Reasoning)나 미래지향적 추론에 근본적인 한계가 있을 수 있지만, 인간의 인과적 추론을 돕는 시뮬레이터로서 결합될 때 더 나은 의사결정을 이끌어낼 수 있다는 결론을 내렸죠.
하지만 그 짧은 사이에도 AI 에이전트와 파운데이션 모델들의 성능은 무서울 정도로 발전했습니다. 단순한 '보조 도구'를 넘어 스스로 복잡한 작업을 수행하는 주체로 진화하고 있는 현실이죠. 결국에는 AGI가 다가올 것이라고 모든 연구자가 동의하고 있다는 이 시기에, 모든 지식노동자와 지식노동을 돕겠다고 주장하는 제품들은 근본적인 정체성과 역할에 대해 자문할 수밖에 없습니다.
HEARTCOUNT 역시 이러한 시기에 발맞추어 제품을 혁신적으로 개편하기 위해 여러가지 시도를 지속하고 있는데요. 이 참에 AI 시대에 데이터 분석을 한다는 것이 무엇인지 다시 한 번 근본적으로 질문해보고자 합니다. 정답을 내기보다는, 질문거리를 스스로 던져본다는 차원에서 말이죠.
LLM이 세상을 이해하는 방식
우리가 흔히 농담 반 진담 반으로 "AGI가 오면 어차피 다 끝난다"고 말하지만, 제품 기획자로서 그 '특이점' 이전에 우리가 마주하고 있는 이 기술의 실체가 무엇인지 이해하고 대응하는 게 제 일이겠지요. OpenAI의 전 수석 과학자이자 학계를 주도하는 핵심 인물인 일리야 수츠케버(Ilya Sutskever)의 발언을 중심으로 정리해보겠습니다.
우리는 흔히 LLM을 '다음 단어 맞추기 게임을 하는 기계', 즉 확률론적 앵무새라고 폄하하곤 합니다. 하지만 이 단순해 보이는 게임이 어떻게 인간 수준의 추론과 창의성을 보여주는 단계로 진입했는지, 그 기저에 깔린 공학적, 철학적 원리를 이해해야 합니다.
텍스트는 현실의 투영이다
일리야 수츠케버는 LLM의 "다음 단어 예측"을 단순한 통계적 확률 게임으로 보지 않습니다. 그는 이를 "세상의 투영(Projection)과 이해(Understanding)" 과정으로 정의합니다. 일리야와 젠슨 황과의 대화를 볼까요?
젠슨 황: 많은 사람들이 챗GPT가 단지 거대 언어 모델(LLM)라고 오해합니다. 하지만 단순히 통계적인 상관관계만 배우는 것 아닌가요?
일리야 수츠케버: 겉보기에는 텍스트의 통계적 상관관계만 배우는 것처럼 보일 수 있습니다. 하지만 실제로 일어나는 일은 다릅니다. 신경망이 텍스트를 정말 잘 압축하기 위해 학습하는 것은 바로 '세계 모델(World Model)'입니다.텍스트는 사실 '세상의 투영(Projection of the world)'입니다. 저 바깥에는 실재하는 세상이 있고, 그 세상이 텍스트라는 형태로 투영된 것입니다. 신경망이 다음 단어를 정확히 예측하기 위해 배우는 것은, 그 텍스트를 만들어낸 기저의 프로세스, 즉 사람들의 희망, 꿈, 동기, 상호작용, 그리고 우리가 처한 상황들에 대한 압축되고 추상화된 표현입니다.
젠슨 황: 단순히 글자를 배우는 게 아니라, 글 뒤에 있는 사람과 세상을 배운다는 거군요.
일리야 수츠케버: 맞습니다. 다음 단어를 더 정확하게 예측할수록, 이 과정에서 얻는 '해상도(Resolution)'와 '충실도(Fidelity)'가 높아집니다. 즉, 세상을 더 선명하게 이해하게 되는 것이죠.
그러니까 일리야가 보기에는 LLM의 성능 향상은 단순히 “말을 그럴듯하게 하는 능력”의 증가가 아니라, 세계를 더 정교하게 압축하고 재현하는 내부 모델의 해상도가 높아지는 과정에 가깝습니다. 다음 단어 예측이라는 목표는 변하지 않았지만, 그 목표를 달성하기 위해 내부적으로 형성되는 세계 모델은 점점 더 많은 인과 관계, 맥락, 인간의 의도를 포괄하게 됩니다. 이 관점에서 보면 “통계적 모델 vs 이해하는 지능”이라는 이분법 자체가 오해에 가까울 수도 있습니다. 통계적 학습이 충분히 큰 스케일과 적절한 구조를 갖출 때, 그것은 곧 이해로 이어질 수 있다는 주장인 셈이죠.
투영된 세계를 학습하는 방식
여기서 잠시 ‘투영(Projection)’이라는 표현을 짚고 넘어가봅시다. 일리야가 말하는 “텍스트는 세상의 투영”이라는 표현도 이 맥락에 놓여 있습니다. 인간이 남긴 텍스트는 현실 세계 그 자체가 아니라, 세계를 인식하고 해석하고 의미화한 결과가 언어라는 저차원 공간으로 투영된 산물입니다. 정치, 경제, 과학, 감정, 욕망, 갈등 같은 고차원의 현실이 문장과 단어라는 제한된 표현 수단으로 압축되어 기록된 것이죠. 따라서 LLM이 학습하는 대상은 ‘현실’이 아니라, 현실이 인간의 인식과 언어를 거쳐 만들어진 거대한 텍스트 투영 집합이라고 볼 수 있습니다.

흥미로운 지점은 바로 여기입니다. 투영은 정보 손실을 수반하지만, 충분히 많은 관측과 다양한 각도의 투영이 쌓이면 원래의 구조를 역으로 추론할 수 있습니다. 여러 방향에서 찍은 X-ray 이미지로 인체 내부 구조를 재구성하듯이, 방대한 텍스트 데이터는 세계에 대한 수많은 단면을 제공합니다. LLM이 다음 단어를 잘 예측하기 위해 내부적으로 학습하는 것은, 이 단면들 사이에 공통적으로 존재하는 생성 규칙과 인과 구조, 즉 “이런 상황에서는 사람들이 보통 이렇게 말하고, 이렇게 행동한다”라는 세계의 작동 원리라는 주장인 것이죠.
스케일링 법칙이 만든 '정교한 세계모델'
이제 자연스럽게 스케일링 법칙(Scaling Law)으로 이야기를 옮길 수 있습니다. 스케일링 법칙이란, 모델의 성능이 특정한 기법이나 아키텍처 변화에 의해 불연속적으로 도약하는 것이 아니라, 모델의 크기·데이터의 양·투입되는 연산 자원을 늘릴수록 점진적으로 개선되는 경향을 보인다는 경험적 관찰입니다. 충분히 큰 모델과 충분한 데이터, 충분한 연산량이 주어지면 손실은 꾸준히 줄어들고, 성능 향상은 우연이 아니라 예측 가능한 결과로 나타납니다.
이 법칙의 중요한 함의는 지능이 어느 순간 갑자기 ‘생겨나는 것’이 아니라, 세계를 압축하고 재현하는 능력이 점점 더 정밀해지는 과정 속에서 서서히 드러난다는 점입니다. 앞서 말했듯, 텍스트가 세상의 투영이라면 LLM의 학습이란 결국 이 투영된 세계를 얼마나 정교하게 복원하고 시뮬레이션할 수 있는가의 문제로 귀결됩니다. 다음 단어 예측이 충분히 잘 수행된다는 것은, 단순한 언어 기술을 넘어 세계를 만들어낸 기저 구조를 점점 더 높은 해상도로 포착하고 있다는 신호일 수 있습니다.
스케일링 법칙이 여전히 유효하게 작동하는 이유도 여기에 있습니다. 자원을 더 많이 투입할수록 성능은 계속 개선되지만, 그 과정은 처음에는 빠르게 좋아지다가 이후로 갈수록 미세하게 정밀해지는 곡선을 따릅니다. 이는 단순히 더 많은 정보를 외운 결과가 아니라, 모델 내부에서 형성되는 세계 모델의 해상도(resolution)와 충실도(fidelity)가 함께 높아지고 있음을 의미합니다. 더 큰 모델은 더 많은 인과 관계를 동시에 유지하고, 더 긴 맥락을 안정적으로 추론하며, 이전에는 통계적 잡음으로 보이던 신호를 점차 구조로 인식하기 시작합니다.
데이터가 많아지면 현실을 완전하게 이해할 수 있을까?
과학적 환원주의의 한계 : 텍스트와 현실의 괴리
앞서 살펴본 투영과 스케일링의 논의를 종합해 보면, 현재의 LLM은 현실 그 자체가 아니라 현실이 텍스트로 환원된 그림자를 극도로 정교하게 학습하고 있는 존재에 가깝습니다. 텍스트는 고차원의 연속적인 세계가 인간의 언어 체계를 거치며 저차원의 이산적 기호로 압축된 결과물이기 때문에, 아무리 해상도를 높인다 해도 본질적인 정보 손실은 피할 수 없습니다. 이는 단순한 기술적 한계라기보다, 세계를 언어로 환원하는 순간부터 발생하는 구조적 제약입니다. 이 이점을 이해하기위해 과학적 환원주의를 떠올릴 수 있습니다.
과학적 환원주의는 인간의 사고나 지능 같은 복잡한 현상도 궁극적으로는 물리 법칙이나 계산 가능한 규칙으로 설명할 수 있다고 보는 관점이다. 이 접근은 현상을 정량화하고 예측 가능하게 만든다는 점에서 강력하지만, 동시에 맥락·질적 차이·경험적 차원이 탈락될 수 있다는 한계를 내포한다.
이 관점에서 보면 LLM은 ‘지능’을 손실 함수의 최소화로, ‘이해’를 예측 정확도의 향상으로 환원합니다. 이 환원은 강력한 설명력을 가지지만 동시에 위험합니다. 손실 값이 줄어들었다는 사실은 모델이 텍스트 상의 규칙과 패턴을 더 잘 포착했다는 의미이지, 그것이 곧 세계에 대한 내적 이해를 획득했다는 증거는 아니기 때문입니다. 텍스트로부터 역문제를 풀어 현실을 재구성하는 과정은 본질적으로 불완전하며, 그 결과로 만들어진 세계 모델은 언제나 실제 세계보다 얇고 평평한 표현에 머물 수밖에 없습니다.
벤치마크와 현실 사용 경험의 간극
이 괴리는 실제 제품과 서비스의 현장에서 더욱 분명하게 드러납니다. 파운데이션 모델들은 벤치마크 점수, 손실 감소율, 특정 태스크 정확도와 같은 지표를 앞세워 비약적인 성능 향상을 주장하지만, 정작 현실의 사용자들이 체감하는 경험은 그 기대에 미치지 못하는 경우가 적지 않습니다. 그 이유는 많은 평가 지표들이 현실 세계의 복잡성과 불완전성을 충분히 반영하지 못하기 때문입니다.
벤치마크는 정의된 입력과 정답이 존재하는 닫힌 환경을 전제로 하지만, 실제 사용 환경은 모호한 목표, 불완전한 정보, 끊임없이 변하는 맥락 속에서 작동합니다. 모델은 지표 상에서는 ‘정답에 가까운 문장’을 생성할 수 있지만, 사용자는 그 결과를 실제 의사결정이나 행동으로 옮겨야 하며, 이 지점에서 드러나는 미묘한 오해, 과잉 확신, 맥락 누락은 지표로는 포착되지 않습니다. 결국 “잘 맞히는 모델”과 “쓸모 있는 모델” 사이의 간극은, 지능과 이해를 수치로 환원한 평가 체계가 현실과 맞닿아 있는 사용 경험을 충분히 대변하지 못하는 데서 발생한다고 볼 수 있습니다.
중국어 방 논증 : 성능과 이해는 다르다
이 지점에서 자연스럽게 떠오르는 고전적인 사고실험이 있습니다. 바로 철학자 존 설(John Searle)의 중국어 방(Chinese Room) 논증입니다. 워낙 유명한 실험이지만, 지금 우리가 이야기하고 있는 LLM과 세계 이해의 문제를 다시 비춰보기에 이만큼 적확한 비유도 드뭅니다.

중국어 방 사고실험은 기호를 다루는 능력과 의미를 이해하는 능력 사이의 간극을 드러냅니다. 중국어를 전혀 모르는 사람이 규칙서에 따라 기호를 조작해 완벽한 중국어 답변을 만들어낼 수 있지만, 그 과정 어디에도 문장의 의미에 대한 이해는 개입하지 않습니다. 겉으로 보기에는 완전한 대화처럼 보이지만, 내부에는 ‘무엇을 말하고 있는지에 대한 앎’이 존재하지 않는다는 것이죠.
이 논증은 LLM에도 거의 그대로 적용됩니다. LLM은 단어의 의미를 이해해서 문장을 생성하는 것이 아니라, 학습된 확률적 규칙에 따라 기호를 배열합니다. 문법과 맥락, 감정 표현까지 정교하게 재현할 수 있지만, 이는 구문론(Syntax)의 숙련이지 의미론(Semantics)에 대한 체험적 이해를 보장하지는 않습니다.
중국어 방 논증이 특히 날카로운 이유는, “성능이 충분히 좋으면 이해로 봐도 되지 않느냐”는 직관을 정면으로 거부하기 때문입니다. 설은 시스템 반론, 로봇 반론, 뇌 시뮬레이터 반론 등 다양한 반박을 하나씩 무너뜨리며, 기호 조작의 정교함이 의미의 발생을 보장하지 않는다는 점을 끝까지 밀어붙입니다. 규칙이 아무리 복잡해져도, 입력과 출력이 아무리 현실과 잘 맞아떨어져도, 그것만으로는 ‘무엇을 하고 있는지 아는 상태’가 만들어지지 않는다는 주장입니다.
AI가 현실에 발을 딛기 시작하는 지점
흥미로운 사실은, 일리야 본인 역시 “다음 단어 예측이 곧 지능의 완성형이다”라고 단순하게 믿고 있지는 않다는 점입니다. 최근 영상을 볼까요?
그는 반복해서 현재의 모델들이 보여주는 성과와 인간 지능 사이에 존재하는 질적 간극을 인정합니다. 특히 표본 효율성(sample efficiency)은, 수조 개의 토큰을 소비하면서도 여전히 불안정한 일반화를 보이는 현재의 파운데이션 모델들이 도달하지 못한 영역입니다.
'얼마나 적은 양의 데이터(경험)만으로도 복잡한 개념을 이해하고 새로운 상황에 적용(일반화)할 수 있는가'를 나타내는 지표. 이는 지능의 수준을 평가하는 핵심 척도로, 단순히 많은 데이터를 암기하는 것이 아니라 데이터 속에 숨겨진 '생성 원리(Underlying Process)'를 얼마나 빠르고 정확하게 파악하는지를 의미한다.
19년 정도의 삶만 경험한, 갓 성인이 된 청년을 생각해봅시다. 이 인간은 거대한 AI 모델이 학습하는 데이터의 극히 일부만을 경험합니다. 하지만 이 청년은 약 10~20시간의 연습만으로도 복잡한 물리 법칙과 사회적 약속이 얽힌 '운전'을 배울 수 있습니다. 일리야가 이를 “거대한 미스터리”라고 표현한 이유도 여기에 있습니다. 단어 예측이라는 목표는 분명 강력하지만, 그것만으로 인간 수준의 학습 메커니즘을 설명하기에는 부족하다는 자각이 이미 내부에 존재한다는 뜻이죠.
스케일링 법칙 너머의 질문
이러한 문제의식은 일리야 수츠케버가 언급한 “스케일링의 시대에서 다시 연구의 시대로의 전환”이라는 발언(위 영상)에서도 드러납니다. 더 큰 모델과 더 많은 데이터를 투입하는 사전 학습은 일정 수준까지 효과적이었지만, 인간과 같은 일반화 능력에 도달하기에는 효율이 빠르게 떨어지고 있으며, 온라인 데이터 역시 한계에 다다르고 있습니다. 그래서 일리야는 단순히 텍스트를 더 많이 학습시키는 대신, 탐색(exploration), 가치 함수(value function), 강화 학습(reinforcement learning)과 같은 메커니즘을 통해 적은 경험으로도 중요한 구조를 학습할 수 있는 새로운 방식이 필요하다고 주장합니다. 이는 지능을 데이터 양의 문제로만 환원하던 관점에서 벗어나려는 명확한 신호입니다.
또한 그는 텍스트 중심 학습의 한계 역시 분명히 인식하고 있습니다. 인간은 언어뿐 아니라 시각·공간·감각 경험을 결합해 세상을 이해하며, 이러한 경험이 더해질 때 이해의 해상도는 질적으로 도약합니다. 이는 텍스트가 세계를 설명하는 강력한 투영이면서도, 본질적으로 손실을 내포한 압축 표현임을 보여줍니다.
결국 일리야의 입장은 단순한 낙관론도, 단호한 부정도 아닙니다. 다음 단어 예측은 세계 모델을 형성하는 데 있어 매우 강력한 출발점이지만, 그것이 지능의 종착점이라고 보지는 않습니다. 오히려 현재의 성공이야말로, 왜 이 방식이 잘 작동하는지, 그리고 어디에서부터 더 이상 작동하지 않는지를 진지하게 연구해야 할 시점이라 주장하고 있지요.
피지컬 AI를 통한 현실과 텍스트의 접점 찾기
다시 중국어 방 사고실험으로 돌아가서, 해당 사고실험에서 던진 질문은 결국 하나로 수렴합니다. “기호를 아무리 잘 다루어도, 그것이 곧 의미를 아는 것은 아니다.” 그렇다면 이 간극을 메우는 길은 어디에 있을까요. 최근 피지컬 AI가 주목받는 이유는 바로 이 질문에 대한 가장 현실적인 답변을 제시하기 때문일 것입니다.
기존 LLM이 다루는 세계는 텍스트로만 구성된 공간입니다. ‘사과는 빨갛다’, ‘무겁다’, ‘미끄럽다’ 같은 문장은 생성할 수 있지만, 그것이 실제로 어떤 감각인지 알지는 못합니다. 피지컬 AI는 여기에 신체를 추가합니다. 로봇이 사과를 집어 들 때 느끼는 압력, 무게, 미끄러짐은 단어에 실체를 부여합니다. 인간이 ‘뜨겁다’를 이해할 때 화상 경험을 떠올리듯, AI 역시 언어를 감각 경험과 연결하기 시작하는 순간, 기호는 설명이 아니라 기억이 됩니다.
인과성에 대한 직관 개발의 영역도 있습니다. 텍스트는 대부분 “A 다음에 B가 온다”는 상관관계를 담고 있습니다. 하지만 현실 세계는 “A를 하면 B가 일어난다”는 인과관계로 움직입니다. 컵을 책상 끝에서 밀면 떨어진다는 사실은 문장으로 이해하는 것과 실제로 컵을 떨어뜨려 보는 것은 완전히 다릅니다. 피지컬 AI는 직접 행동하고 그 결과를 관찰함으로써, 세상이 왜 그렇게 움직이는지를 학습합니다. 이는 통계적 추론을 넘어, 물리 법칙에 기반한 직관을 형성하게 합니다. 즉, 기호 접지가 비로소 성립되는 것이죠.
기호(단어)가 실제 세계의 사물·행동·감각과 직접 연결되어 의미를 갖게 되는 것을 뜻한다.
피지컬 AI는 단순한 로봇 제어가 아니라, (보다 - 이해하다 - 행동한다)라는 하나의 순환 구조로 진화하고 있습니다. 언어 모델이 계획을 세우고 판단을 내리면, 저수준 제어 시스템이 즉각적인 움직임을 담당합니다. 인간으로 치면 “조심해서 컵을 들어야겠다”라고 판단하는 사고와, 손의 미세한 힘 조절이 동시에 이루어지는 것과 같습니다.
결국 피지컬 AI는 텍스트가 충분히 투영하지 못하는 현실 세계와 언어 모델이 실제로 맞닿을 수 있는 접점을 만들어냅니다. 다음 단어를 예측하는 데서 출발한 지능이, 이제는 물질계의 다음 상태를 상상하고 그 결과에 책임지는 방향으로 확장되는 순간입니다. 언어 모델이 세상을 설명하는 능력이라면, 피지컬 AI는 세상을 살아보는 능력을 더합니다. 이 둘의 결합은 AI가 더 그럴듯하게 말하는 존재가 되는 것이 아니라, 현실의 제약 속에서 실패하고 수정하며 배워가는 존재로 진화하고 있다는 것이겠죠. 그리고 아마도 우리가 ‘이해’라고 부를 수 있는 지점은, 바로 그 과정 어딘가에 놓여 있을 것입니다.
1편을 마치며
이번 글에서는 LLM이 텍스트라는 투영을 통해 세계 모델을 형성하는 과정과, 그 성능 향상이 어디까지를 의미하는지 살펴보았습니다. 다음 단어 예측은 세계의 구조를 점점 더 정교하게 포착하지만, 그것이 곧 현실에 대한 이해를 의미하지는 않습니다.
이 한계는 데이터 분석에서도 그대로 반복됩니다. 데이터 역시 현실 그 자체가 아니라, 측정과 기록을 거쳐 숫자로 환원된 결과이기 때문입니다. AI는 이 숫자들을 빠르고 그럴듯하게 해석할 수 있지만, 그 해석을 현실의 맥락 속에 다시 위치시키는 책임까지 대신할 수는 없습니다.
2편에서는 이러한 전제를 바탕으로, 할루시네이션을 넘어 실제 의사결정으로 이어지기 위해 필요한 접지 전략과 AI를 활용한 데이터 분석에서 인간 분석가의 정체성에 대한 고민의 결론을 내려보겠습니다.
HEARTCOUNT는 개인과 기업을 위한 시각화/AI 자동 분석 도구입니다. 지금 바로 가입하고 무료 체험해보세요.
출처



