LLM과 데이터 분석 자동화

LLM과 데이터 분석 자동화

하트카운트의 2024년 신년사를 글로 발행했습니다. LLM(거대 언어 모델)과 Self-Serve Analytics, 데이터 분석 자동화의 현재와 미래를 담론하고 하트카운트가 2024년에는 어떻게 실무자들의 데이터 분석에 도움이 될 수 있을지 담았습니다.

목차

Hello 2024

하트카운트의 양승준입니다. LLM이 실무자들이 데이터를 활용하는 일을 어떻게 얼마나 바꿀지에 대한 생각으로 신년 인사를 대신합니다.  이 글을 읽는 당신의 눈동자가 새해에도 더 빛나길 바라요.

Self-Serve Analytics - 과거, 현재, 그리고 미래

실무자가 거침없이 데이터를 활용하는 경지를 지향하는 기술과 도구를 아울러 “Self-Serve Analytics”이라고 합니다. 21세기 초반부터 2022년까지의 Self-Serve Analytics이 실무자들의 데이터 역량(Data Literacy)과 보급형 데이터 도구의 확산을 통해 그 가능성과 한계를 노정했다면, 2023년은 LLM(거대 언어 모델)을 활용한 “Self-Serve Analytics”의 새로운 지향점에 대한 비전이 백가쟁명식으로 쏟아졌던 한해였습니다.

하트카운트도 데이터와 관련된 질문-답변 자동화를 위한 일련의 기능의 일환으로 자연어를 SQL로 바꾸어주는 TTS(Text-to-SQL)와 대화형 분석 기능(Dialogue)을 세상에 선보이며 시대의 부름에 답하려 하였습니다.

2024년에도 LLM을 활용한 데이터 분석 업무의 자동화에 대한 (궁극적) 가능성과 (당장의) 한계, 그 한계를 극복할 수 있는 구조와 기술에 대한 작업들이 활발하게 진행될 것입니다.

이런 지각변동의 심층에 위치한 OpenAI의 ChatGPT, Google의 Gemini, Anthropic의 Claude, Microsoft의 Fabric/Copilot 등 자본과 기술을 선점한 소수의 특권 업체들은 새로운 변화의 패권을 잡기 위한 큰 그림을 계속 펼쳐 보일 것입니다. 병행해서 Mistral과 같은 오픈소스 LLM 진영의 약진과 작지만 영민한 기술업체들이 선보일 Private LLM이 구체적인 분야에서 비용 효과적으로 문제를 해결하는 모습도 기대해 봅니다.

Self-Serve Analytics - LLM만으론 부족해요

23년 여름 마이크로소프트는 '패브릭(Fabric)'이라고 명명된 데이터 분석 플랫폼을 현란한 데모와 함께 세상에 선보이며 희망찬 데이터의 미래를 약속하였습니다. "AI로 꼭꼭 숨어있던 Insight를 발견하세요," "손까락만 까딱하면 AI의 힘을 온몸으로 느끼실 수 있습니다.”..

하지만, 정작 사람들이 가장 큰 관심을 가졌던 자연어로 데이터에 질문할 수 있게 해주는 데모 영상에서 사용자의 질문에 대해 LLM이 부정확한 SQL 문을 생성한 일을 단순한 해프닝으로만 넘기기는 쉽지 않습니다.

데이터에 대한 질문-답변 자동화 맥락에서 기계가 답변을 잘 하기 위해서는 사실과 개념(업무 용어)에 대한 지식(선언적 지식)과 분석 스킬(절차적 지식)이 필요합니다.

예를 들면 “작년 베트남에서 전환(Conversion)이 발생한 사용자들의 특성을 알려주세요."라는 질문에 답하기 위해서는 우선, 문맥 상 "전환"이 Sign-up 전환을 뜻하는지, 아니면 유료 요금제로 전환을 뜻하는지 판단할 수 있어야 하고, 유료 전환이라면 유료 전환 여부를 식별하는 규칙(예, 데이터 베이스의 해당 테이블의 요금제 유형이 professional, premium, expert인 경우)을 확정적으로 알 수 있도록 사실과 개념에 대한 지식이 필요합니다. 그리고, 유료 전환하지 않은 집단과 대비되는 특성을 통계적으로 분석하는 절차에 대한 방법론적 지식이 필요하구요.

특히, 현재 질문 맥락에서 사용된 용어나 지표에 대한 정확한 의미와 공식은 ChatGPT와 같은 언어모델이 아무리 발전한다 한들 알기 어려운 조직 내부의 지식입니다. 예를 들어 위 질문에서 사용된 "작년"이 표준연도(Calendar Year)인지 아니면 회계년도(Fiscal Year)를 지칭하는 것인지 여부는 해당 조직 내부의 사정일 수밖에 없으니깐요. (이 문제를 극복할 수 있는 방법 중 하나로 아래 박스의 RAG 참고)

💡
RAG(Retrieval-Augmeted Generation)는 신뢰할 수 있는 내부 문서(예, KPI/Metrics 정의문서) 등을 활용하여 LLM 답변의 정확성을 높이는 기술로 LLM을 다시 학습시켜야 하는 파인튜닝 방식보다 비용 효과적이라 주목을 받고 있습니다. 다만, 데이터 분석 맥락에서 질문에 사용된 용어나 개념을 데이터(DB) 수준에서 명확히 정의하는 문제를 해당 기술이 얼마나 잘 풀 수 있을지 아직 단정하기는 어렵습니다.

당신의 데이터 일손을 덜 수 있도록

데이터에서 지식 생산이 어려운 것이 세상에 정확한 SQL 문장들이 부족해서, 주어진 차트에 대한 통계적, 정량적 해석이 어려운 탓만은 아닐 것입니다. 데이터를 활용하는 기술이 아무리 발전하더라도 주어진 데이터에 담긴 절대적인 정보량이 증가하지는 않을 테니까요.

하지만, 데이터 접근과 활용에 대한 진입장벽을 낮추고 지식 노동자들이 데이터에서 지식을 생산하는 생산성을 높일 수 있다는 점에서 LLM과 AI를 활용한 데이터 분석의 자동화는 분명 의미있는 기술의 발전 방향이라고 생각합니다. 바빠서 혹은 어려워서 "알 수 있는 걸 알지 못하는 비용"을 지불해야만 했던 개인이나 조직에게 실질적인 가치를 제공하게 될 것입니다.

나의 일(Job)은 많은 작업(Tasks)들로 구성되어 있습니다. 데이터를 의사결정에 활용하는 일도 많은 하위 작업들로 구성되어 있고, 수년 내에 데이터 분석 업무와 관련된 모든 하위 작업들을 AI가 능숙하게 대신 처리해 줄 가능성은 없어 보입니다. 다만 현재의 기술로 충분히 자동화할 수 있는 분석의 하위 작업들을 똘똘한 도구의 도움을 받아 처리하는 실무자의 생산성이 그렇지 않은 실무자보다 높을 것 또한 자명합니다.

HEARTCOUNT는 2024년에도 당신의 마음에 쏙드는 분석을 온전하게 대신해 드릴 수 없을 것입니다. 당신의 데이터 일손을 덜어주는 다정하고 요긴한 조력자가 될 수 있도록 2024년에도 정진하겠습니다.

양승준 드림