AI 시대의 데이터 분석 (2) 맥락과 해석의 책임

💡

데이터 분석은 숫자를 계산하는 일이 아니라, 숫자로 투영된 현실을 해석하는 일입니다. 이 시리즈는, 동일한 방식으로 세상을 바라보는 AI라는 새로운 지능이 등장한 시대에, 데이터·AI·인간 분석가의 역할이 어떻게 재정의되어야 하는지를 총 2편에 걸쳐 탐구합니다. ✔️ 1편에서는 AI가 텍스트라는 ‘그림자’를 통해 세상을 학습하게 되는 원리와, 그 과정에서 드러나는 근본적인 한계를 짚어보았습니다. ✔️ 2편에서는 AI를 활용한 데이터 분석에서 인간 분석가가 끝까지 맡아야 할 역할이 무엇인지에 대한 결론으로 나아갑니다.

이 전 글에서 우리는 텍스트와 언어 모델을 중심으로, AI가 현실을 얼마나 이해할 수 있는가라는 질문을 긴 호흡으로 따라와 보았습니다. 텍스트는 현실의 투영이며, 아무리 정교해져도 현실 전체를 온전히 담아내지는 못할 수 있다는 논거도 함께 쌓아보았죠. 그렇다면 다시 본문으로 돌아와야 할 차례입니다. 우리가 매일같이 다루는 데이터 분석은 이 문제와 어떤 관계에 있을까요.

이 질문에 답하기 위해서는 먼저, 우리가 무심코 섞어 쓰고 있는 두 단어를 구분할 필요가 있습니다. 바로 '정보'와 '데이터'입니다. 이 둘은 비슷해 보이지만, 데이터 분석의 관점에서는 전혀 다른 성격을 가집니다.

데이터는 숫자로 기록된 '선택된 단면'

정보는 현실 세계의 모든 신호와 맥락을 포괄합니다. 사람들의 행동, 감정, 사회적 관계처럼 말로 표현되지 않은 모든 것들이 포함합니다. 반면 데이터는 그중 측정하고 기록할 수 있는 숫자나 기호로 표현된 일부에 불과합니다. 즉, 데이터는 현실 그 자체가 아니라, 현실을 다루기 위해 선택적으로 잘라낸 '표본'입니다.

그렇기에 데이터 분석은 단순히 정보를 처리하는 작업이 아니라, 현실이 데이터로 변환되는 과정에서 무엇이 남고 무엇이 사라졌는지를 살피는 일입니다. 진정한 분석은 "무엇을 계산할 것인가"보다 "이 데이터가 현실의 어떤 부분을 대표하며, 어떤 부분은 담기지 못했는가"를 묻는 데서 출발해야 합니다.

무한한 정보 중 우리가 실제로 인식하고 분석할 수 있는 정보의 경계를 다음과 같이 분류해 보겠습니다.

정보의 네 가지 범주

언어적으로 이해될 수 있는 정보(linguistic)
사람들이 말하고, 쓰고, 기록하는 모든 형태의 정보가 여기에 속합니다. 데이터 분석에서 말하는 숫자 역시 이 범주에 포함됩니다. 숫자는 그 자체로 존재하는 것이 아니라, 측정·정의·정제 과정을 거쳐 사람이 이해할 수 있는 언어적 체계로 번역된 결과이기 때문입니다. 또한, LLM이 학습할 수 있는 정보이기도 합니다.
시각적(visual), 감각적(sensory) 정보
시각적인 정보는 이미지, 영상, 공간적 배치, 형태와 색상처럼 ‘보는 것’을 통해 즉각적으로 인식됩니다. 감각적인 정보는 촉각, 청각, 후각, 미각, 균형감각 등이 해당됩니다. 현실 세계에서의 많은 판단과 학습은 이 영역에 깊이 의존합니다.
관계성 속에서만 발생하는 정보
사람과 사람, 사람과 사물, 사물과 사물 사이의 상호작용 속에서만 드러나는 정보들입니다. 이는 개별 데이터 포인트가 아니라, 맥락과 관계망 속에서만 의미를 갖습니다.
불가해의 정보
주관적인 체험의 핵심이나 모순, 역설처럼 어떤 방식으로도 온전히 표현될 수 없는 영역입니다. 이는 분석에서 다루기 힘든, 현실 세계의 '오차항'과도 같습니다.

데이터 분석의 본질 : '숫자'와 '이해'를 결합

이제 데이터 분석입니다. 데이터 분석을 흔히 계산이나 차트 작성으로 보지만, 이는 분석의 결과일 뿐 본질이 아닙니다. 진정한 분석은 숫자로 드러난 현상 뒤에 놓인, 위에서 우리가 정의한 '현실'을 이해하는 일입니다. 숫자는 현실의 단면을 특정 방식으로 잘라낸 표현이기에, 그 자체로는 의미가 완성되지 않기 때문입니다.

같은 데이터라도 서로 다른 결론에 도달하는 경우는 매우 흔합니다. 이는 분석가의 계산 능력 차이 때문이 아니라, 현실을 바라보는 관점의 차이에서 비롯됩니다. 누군가는 수치의 증가를 ‘성장’으로 해석하지만, 다른 누군가는 이를 ‘구조적 문제’의 신호로 읽기도 합니다. 데이터는 변하지 않았지만, 분석가에게 투영된 현실의 그림자가 다르기에 해석의 틀도 달라지는 것입니다.

그렇다면 LLM을 활용한 데이터 분석은 어떤 의미를 가질까요? 이를 이해하기 위해 분석의 두 축인 ‘숫자’와 ‘이해’를 구체적으로 분해하여 각 의미를 살펴해 보겠습니다. 먼저 숫자를 통해 현상을 읽어내는 영역부터 살펴봅니다.

숫자 : 분석의 3가지 층위

SQL 등을 활용한 데이터 집계
반복적으로 수행되는 요약 작업을 의미합니다. 매출이나 전환율처럼 사전에 정의된 지표를 요약하고 모니터링하는 가장 일반적인 방식입니다. 이러한 분석은 안정적이고 재현 가능하며, 대시보드 형태로 시각화되기 적합합니다. LLM은 주로 자연어 질의를 SQL로 변환하거나 결과를 설명하는 보조 역할을 수행하며, 효율적이지만 정해진 틀 안에서만 질문이 이루어진다는 한계가 있습니다.
관점 확장(out of the box) 분석
기존 지표로 보이지 않는 현상을 포착하기 위해 관점 자체를 새롭게 설계하는 단계입니다. 이 때 중요한 것은 계산 기술보다 “어떤 현실을 숫자로 드러낼 것인가”라는 문제 설정입니다. LLM은 새로운 가설을 제안하거나 분석의 지평을 넓히는 데 기여할 수 있지만, 현실에 대한 이해가 빈약하다면 표면적인 조합에 그칠 위험이 있습니다.
패턴 인식 (머신 러닝)
사람이 명시적으로 정의하기 어려운 복잡한 구조를 데이터로부터 자동으로 찾아내려는 시도입니다. 단순한 1회성 SQL 기반의 데이터 집계를 넘어서는, 모델링을 통한 본격적인 패턴 인식이 필요한 것이지요. 이 때는 패턴 인식 모델의 학습을 위한 Python 같은 도구와 강력한 컴퓨팅 자원이 필수적입니다. 물론 이는 단순히 '어떤 툴을 쓰느냐'나 '자원이 얼마나 필요한가'의 문제는 아닙니다. 패턴 인식의 본질은 극도로 복잡한 현실 세계에서 공통된 질서와 구조를 스스로 추출해내는 것이기 때문입니다.

현실을 이해하는 일의 2가지 축

이제 그 숫자를 현실에 다시 연결시키는 단계(일종의 기호 접지, Symbol Grounding), 즉 이해가 필요합니다. 데이터 분석이 계산에서 끝나지 않고 인사이트로 이어지기 위해서는, 숫자가 가리키는 세계가 어떤 곳인지에 대한 이해가 반드시 결합되어야 합니다. 이때 핵심이 되는 것이 바로 현실을 이해하는 지식의 구분입니다.

현실 세계 전반에 대한 일반적 이해 (World knowledge)
시장과 조직이 보통 어떻게 움직이는지, 특정 변화에 사람들이 어떻게 반응하는지와 같은 보편적인 상식입니다. 방대한 텍스트로 맥락을 축적한 LLM이 특히 강점을 발휘하는 영역이며, 상식적인 수준의 데이터 해석에 점점 능숙해지고 있습니다.
분석이 이루어지는 특정 분야에 대한 전문 지식 (Domain-specific knowledge)
같은 수치라도 산업군(이커머스, 금융, SaaS 등)에 따라 전혀 다른 원인과 함의를 가질 수 있습니다. 주로 현장 경험과 암묵지의 형태로 존재하며 교과서처럼 정리되어 있지 않은 경우가 많습니다. 따라서 데이터 해석에 가장 결정적인 역할을 하지만, 동시에 활용하기는 가장 어려운 영역입니다. 전문 지식에 대해 LLM이 접근할 수 있도록, 전문 지식에 대한 문서화 및 이를 실제 '이해'에 활용하는 RAG와 같은 기술이 주목받은 이유일 것입니다.

이 두 지식은 서로 독립적이지 않으며, 상호 보완하거나 충돌하며 깊은 통찰을 만듭니다. 보편적으론 이상해 보이는 수치가 특정 도메인에서는 정상적인 관행일 수 있고, 반대로 상식적으로 자연스러운 변화가 실제로는 심각한 구조적 문제의 신호일 수도 있기 때문입니다.

AI가 모르는 '나머지 현실'을 채우는 법: 기록을 늘리거나, 맥락을 더하거나

결국 ‘현실을 이해한다’는 것은 숫자로 드러난 현상을 실제 세계의 맥락 속에 다시 위치시키는 작업입니다. 이 수치가 어떤 현실의 결과이며, 어떤 제약과 맥락 속에서 만들어졌는지, 일시적인 잡음인지 혹은 구조적 신호인지를 판단하는 과정에서 LLM은 강력한 보조 도구가 될 수 있습니다.

문제는 현실 이해의 핵심인 도메인 지식들이 종종 언어적으로 명확히 정의되어 있지 않다는 점입니다. 문서화되지 않은 암묵지의 맥락은 아무리 똑똑한 LLM이라도 분석에 활용할 수 없습니다.

그렇다면 LLM이 가장 강점을 보이는 ‘언어적으로 정의된 정보’의 영역에서, 인간은 어떤 역할을 맡아야 하며, 그 역할은 LLM이 데이터 분석을 최대의 효율과 정확성으로 보조하도록 어떻게 설계되어야 할까요?

가능한 모든 현실을 언어화하고 기록하기

첫번째로, 비언어적 영역을 최대한 언어적 데이터(Linguistic)로 번역하여 AI가 이해할 수 있는 영역으로 끌어오는 시도입니다. 다시 말해 2·3·4번(시각 정보, 감각 정보, 관계 정보...) 영역을 최대한 1번(언어 정보)의 영역으로 전환하려는 노력입니다.

사전 학습(pre-training)
현실 세계의 반복적 패턴과 맥락을 방대한 텍스트로 축적해 모델의 기본 지식층으로 흡수시키는 작업입니다. 이는 개인 혹은 소규모 조직의 역량을 넘어서는 영역으로, 현재로서는 빅 테크 기업들이 담당하고 있는 역할이기도 합니다. 이 과정이 진전될수록, 과거에는 암묵적이거나 경험적으로만 전해지던 지식들이 점점 언어화되어 모델의 기본 지식층으로 흡수됩니다.
현실 세계로부터의 정보 수집 및 문서화
시각 정보나 행동 로그 등, 2~4번에 속하는 정보를 적절히 구조화 및 언어적 데이터로 변환하는 노력입니다. 위에서 언급한 도메인 지식의 문서화 작업 등이 이에 해당되겠습니다만, 모든 정보가 수집 가능한 것은 아니며 수집과 저장, 관리에는 상당한 비용이 따릅니다. 따라서 비용 효율성(Cost-efficient)을 고려한 전략적 판단이 필수적입니다.

언어로 환원되지 않는 맥락을 '사용자 컨텍스트'로 남기는 방법

다음은, 언어로 완전히 환원되지 않는 영역을 억지로 일반화하려 하기보다, 모든 현실을 하나의 보편적 언어로 통합하려는 시도가 아니라, 사용자 각자의 맥락과 관점을 존중한 상태에서 분석이 이루어지도록 돕는 접근입니다.

앞서 살펴본 것처럼, 현실의 많은 정보는 본질적으로 주관적이며 상황 의존적입니다. 같은 숫자라도 어떤 사람에게는 위기 신호로, 다른 사람에게는 기회로 읽힙니다. 이 주관성은 단순히 "더 많은 설명을 붙이면 해결되는 문제"가 아닙니다. 오히려 완전히 언어화될 수 없는 부분이 있다는 가정 하에, 시스템은 사용자가 자신의 관점을 창발적으로 드러낼 수 있는 공간을 제공해야 합니다.

개인 맞춤형 메모리

이 때 중요한 개념이 개인 맞춤형 메모리입니다. 개인 맞춤형 메모리는 단순히 사용자의 과거 발화를 저장하는 수준이 아니라, 사용자가 어떤 맥락에서 어떤 판단을 내려왔는지, 어떤 기준을 중요하게 여기는지, 어떤 해석을 반복적으로 선택해왔는지를 누적하는 구조를 의미합니다. 이는 흔히 말하는 모델의 context window 크기 문제와는 다릅니다. 일시적으로 많은 텍스트를 집어넣는 것이 아니라, 분석의 역사와 의사결정의 흐름을 지속적으로 맥락화하는 long-term memory의 문제입니다.

분석 과정의 맥락화

또한 분석 과정 자체가 맥락화되어야 합니다. 데이터 분석은 한 번의 질의와 응답으로 끝나는 행위가 아니라, 질문을 수정하고, 가설을 세우고, 결과를 해석하며, 다시 질문으로 돌아가는 순환 과정입니다. 이 과정에서 무엇을 전제로 삼았고, 어떤 선택을 했으며, 어떤 해석을 버렸는지가 함께 보존되지 않으면, 결과만 남은 분석은 쉽게 오해를 낳습니다. 맥락화란 바로 이 과정의 흔적을 유지하는 것입니다.

human-in-the-loop

이 지점에서 human-in-the-loop의 중요성이 분명해집니다. LLM은 제안과 확장을 담당하되, 해석의 최종 책임은 인간에게 남아있어야 한다고 믿고 싶습니다. 사용자는 시스템과 상호작용하며 분석 결과를 해석하는 주체이며, AI는 판단을 대신하는 존재가 아니라 분석가의 사고를 외부화하고 정교화하는 도구로 작동할 때 가장 강력해집니다.

System-integratged Agent

마지막으로 필요한 것은, 분석을 개인의 기억이나 일회성 대화에만 의존하지 않고, 시스템 차원에서 맥락을 보존하고 확장하는 구조입니다. 분석에 활용될 수 있는 외부 문서, 내부 정책, 도메인 지식, 과거 의사결정 기록 등에 모델이 효율적으로 접근할 수 있도록 설계된, 기존 시스템에 통합/연결된 Agent 기반의 분석 환경이 여기에 해당합니다.

중요한 점은, 모델이 이 문서들을 ‘임의로 참고해 결론을 내려서는 안 된다’는 것입니다. System-integrated Agent에서의 AI는 판단의 주체가 아니라, 근거를 정리하고 연결하는 중개자에 가깝습니다. 예를 들어 “과거 유사한 상황에서는 이런 판단이 내려졌고, 이 문서에서는 이러한 제약 조건이 명시되어 있습니다. 이를 고려하면 현재 수치는 이렇게 해석될 수 있는데, 이 관점에 대해 어떻게 생각하십니까?”와 같은 방식으로, 해석의 재료와 경로를 투명하게 제시해야 합니다.

팔란티어(Palantir)의 접근: LLM과 현실 사이에 '운영 체제'를 둔다

관련해서 팔란티어가 어떻게 이 문제를 풀어보고자 하는지 소개하겠습니다. 앞선 두 접근이 각각 1)현실을 최대한 언어로 환원하려는 노력, 2)언어로 환원되지 않는 주관성을 개인화·맥락화로 다루려는 노력이었다면, 팔란티어(Palantir)의 접근은 이 둘을 기업의 실제 운영 환경에서 강제로 연결하는 구조적 해법에 가깝습니다.

팔란티어는 LLM을 단순한 "답변 생성기"로 보지 않습니다. 대신 확률적인 AI 지능과 결정적인 기업 운영 현실 사이의 간극을 인정하고, 이를 메우기 위해 온톨로지(Ontology)라는 운영체제를 도입합니다. 이는 지능이 현실에 무책임하게 떠다니지 않도록 강제로 연결하는 구조적 해법입니다.

출처: https://www.palantir.com/docs/kr/foundry/ontology/core-concepts

할루시네이션 문제를 ‘지식의 출처’ 문제로 재정의

할루시네이션은 모델이 '틀렸다'기보다 정보가 현실 어디에도 고정되지 않은 상태에서 답변하기 때문에 발생합니다. 텍스트로 학습된 일반 지식은 기업의 실시간 재고, 현재 공정 상태, 내부 규정 같은 ‘운영 현실’을 보장하지 못합니다.

팔란티어는 기업 데이터를 객체(Object), 관계(Relationship), 행동(Action)으로 구조화하여 온돌로지라는 현실의 '디지털 쌍둥이'를 만듭니다. LLM은 이 온톨로지를 통해서만 정보를 조회하며(OAG), 모든 답변은 검증 가능한 운영 현실에 고정, 접지(Grounding)됩니다.

확률적 추론을 ‘결정적 로직’으로 강제 전환

LLM은 계산과 비즈니스 로직에서 본질적인 약점을 가집니다. 동일한 질문에 서로 다른 답을 내놓을 수 있고, 그 추론 경로를 명확히 설명하기도 어렵습니다.

팔란티어는 이 문제를 LLM의 성능 개선으로 풀지 않습니다. 대신 LLM을 직접 계산하는 주체가 아니라, 도구를 호출하는 지휘자(Orchestrator)로 위치시킵니다. 실제 계산, 최적화, 예측은 온톨로지에 등록된 결정적 도구(Functions, Models)가 수행합니다. LLM은 "이 질문에는 어떤 도구를 써야 하는가"를 판단할 뿐입니다. 그 결과, 답변은 재현 가능하고 디버깅 가능한 형태로 남습니다.

안전한 자율성: 정의된 행동(Action)을 통한 통제와 승인

기업 환경에서 가장 위험한 순간은 AI가 현실 세계에 직접 개입할 때입니다. 발주, 설정 변경, 승인과 같은 행동은 단순 채팅으로 사용자에게 전달하는 '조언'과는 차원이 다릅니다.

팔란티어는 이 문제를 온톨로지에 행동(Action Types) 자체를 정의함으로써 해결합니다. LLM은 시스템을 직접 조작하지 않고, 사전에 정의된 행동을 제안만 할 수 있습니다. 이 행동들은 승인 규칙, 검증 로직, 부작용 관리가 포함된 안전한 통로입니다. 즉, AI의 자율성은 확보하되, 기업의 통제권은 유지됩니다.

결국 팔란티어의 솔루션은 "텍스트는 세상의 투영"이라는 일리야 수츠케버의 철학을 기업 환경에 맞게 번역한 실용적 해답이라 볼 수 있으며, 앞서 분류한 정보의 범주 중 3번, 즉 '관계성'이 데이터의 핵심이라는 전제를 솔루션으로 발전시켰다고 볼 수 있겠습니다. 기업의 온톨로지가 곧 기업의 세계이며, AI는 이 세계의 규칙 안에서만 사고하고 행동해야 한다는 것입니다.

💡

제언
LLM은 오케스트레이터, 계산은 deterministic 엔진(SQL/파이프라인), 모든 답변은 정확한 현실에 접지, 해석은 사용자 메모리와 함께 저장, 중요한 판단은 승인/확인 단계로 분리.

AI 데이터 분석의 종착지는 자동화가 아니다

AI가 잘하는 일, 할 수 없는 일

LLM은 언어로 정의된 세계를 요약하고 조합하며 표준적인 해석을 내놓는 데 압도적인 성능을 보여줍니다. 반복적인 집계와 일반 상식의 적용 영역에서 AI는 이미 인간 분석가보다 더 안정적이고 빠른 파트너가 되었으며, 이 경향은 더욱 강화될 것입니다.

그러나 동시에, 이번 글에서 반복해서 살펴본 것처럼 AI가 본질적으로 풀어내기 어려운 영역 역시 분명히 존재합니다. 언어로 완전히 환원되지 않는 주관성, 맥락에 깊이 뿌리내린 도메인 지식, 관계 속에서만 드러나는 의미, 그리고 무엇보다 “이 숫자를 어떻게 받아들일 것인가”라는 해석의 책임은 여전히 인간의 몫으로 남아 있습니다. 이는 기술이 덜 발전해서가 아니라, 현실 세계는 기호로만 설명될 수 없는 복잡한 층위로 구성되어 있기 때문입니다.

AI 데이터 분석의 원칙

여기까지의 논의를 정리해보면, 하나의 결론에 자연스럽게 도달하게 됩니다. AI 기반 데이터 분석의 미래는 "얼마나 많은 것을 AI가 대신 해주느냐"의 문제가 아니라, "AI와 인간의 역할을 어떻게 재배치하느냐"의 문제라는 점입니다.

따라서 AI 기반 데이터 분석 제품이 나아가야 할 방향은, 분석을 완전히 자동화하는 도구가 아니라, 현실을 해석하는 사고 과정을 확장하는 시스템에 가까우리라 생각합니다.

이 관점에서 보면, 개인 맞춤형 메모리와 맥락화, human-in-the-loop 설계, 그리고 팔란티어식 온톨로지 접근은 모두 같은 방향을 가리킵니다. 단지 AI를 더 똑똑하게 만드는 것이 아니라, AI가 현실에 무책임하게 떠다니지 않도록 ‘닻’을 내리는 방식입니다. 그 닻은 때로는 언어화된 지식이고, 때로는 사용자의 맥락이며, 때로는 기업의 운영 현실입니다.

"AI가 잘할 수 있는 것과, 끝까지 인간의 판단이 필요한 것을 어떻게 구분하고 연결할 것인가?" 이 질문에 대한 대답이 곧, 앞으로는 이러나 이것이 미래 데이터 분석 제품의 설계 원칙이 될 것입니다.