ChatGPT를 대신할, 데이터 분석의 새로운 대안! HEARTCOUNT AI Analytics

ChatGPT를 대신할, 데이터 분석의 새로운 대안! HEARTCOUNT AI Analytics

HEARTCOUNT Dialogue는 사용자에게 적절한 분석 질문을 추천하고, 정확한 시각화 결과물 및 텍스트 요약문을 생성하는, 데이터 전문가가 아닌 모든 사람을 위한 AI 기반 데이터 분석 제품입니다. HEARTCOUNT가 어떠한 철학과 고민을 담아 이 제품을 만들었는지 함께 나누어 보고자 합니다.

목차
📌
이런 분들께 추천합니다.
- 데이터 분석의 시작이 막막하셨던 분들
- 마음에 드는 데이터 시각화/분석 툴을 찾기 어려웠던 분들
- 사수, 데이터 분석가(조직)의 부재로 내가 하고 있는 데이터 분석이 맞는지 헷갈렸던 분들

들어가며

ChatGPT로 대표되는 거대 언어 모형(이하 LLM)의 등장과 함께, 데이터 분석의 세계에도 LLM을 도입하려는 시장의 거대한 움직임에 대해서 살펴본 바 있습니다.

HEARTCOUNT는 올 6월, AI Analytics 제품인 HEARTCOUNT Dialogue를 새롭게 출시합니다. HEARTCOUNT Dialogue는 주어진 데이터에 사용자에게 적절한 분석 질문을 추천하고, 정확하고 신속한 시각화 결과물 및 텍스트 요약문을 생성하는, 데이터 전문가가 아닌 모든 사람을 위한 AI 기반 데이터 분석 제품입니다.

HEARTCOUNT가 어떠한 철학과 고민을 담아 이 제품을 만들었는지 함께 나누어 보고자 합니다.




소프트웨어, 자유도와 정확성 사이에서

데이터 분석 제품도 큰 범주에서 보자면 '소프트웨어'로 볼 수 있는데요.
모든 소프트웨어는 이렇게 나누어 볼 수 있겠습니다.

가) 사용자가 창의력을 맘껏 발휘하게 해주는 제품
나) 사람들이 실수하지 않고 주어진 목적을 달성하게 하는 제품

포토샵의 수많은 메뉴와 기능들 예시. 출처) Adobe Community
Adobe Photoshop의 셀 수 없이 많은 기능들. 출처: Adobe Community
  • 가) 유형의 대표적인 제품은 Adobe Photoshop일 것입니다. 사용자에게 아주 높은 자유도를 제공하여, 재능과 솜씨가 있는 사용자의 경우 자신의 능력을 극대화하도록 돕습니다. 그러나 그렇지 못한 사용자는 스스로의 모지람이 있는 그대로 드러나도록 하는 제품입니다. 사용자에게 어떤 일을 하는(예: 캐릭터 생성) best practice를 제시하며 올바른 길로 가도록, 즉 실수하지 않도록 인도하여 주는 친절함은 없지요. 당연히 많은 교육과 수고와 시간을 필요로 합니다. 물론 그게 마냥 나쁜 것은 아닐 것입니다. 일정량의 노력과 시간(+재능)이 담보된다면 본인이 원하는 결과치에 도달할 수 있을 테니까요.

홈택스 연말정산 프로그램
  • 나) 유형의 대표 제품은 연말정산 같은 프로그램입니다. 정확한 결과를 얻는 것이 핵심이자 존재 이유인 이런 툴들은 엉뚱한 값을 입력하거나 정해진 작업 순서를 따르지 않는 것을 용납하지 않습니다.


Tableau로 만드는 대시보드 예시. 출처: Analytics Vidhya. https://www.analyticsvidhya.com/blog/2021/03/create-your-first-dashboard-in-tableau/

그렇다면, 데이터 분석 소프트웨어들은 어떨까요?

데이터 분석 소프트웨어는 크게 BI와 EDA/Analytics 도구로 나누어 볼 수 있는데요. 먼저, 전통적 의미의 BI는 나) 유형에 더 가까운 제품입니다. 대시보드를 바라보며 발생하는 추가적인 질문에 바로 답변을 얻을 수 없다는 사실은 갑갑하지만, 미리 정의된 메트릭을 정해진 방식(대시보드)으로 소비하기 때문에 안전합니다. (transformation layer를 포함한 pipeline을 관리하는 일은 “가”에 더 가까운 작업이긴 합니다.)

반면, EDA/Analytics 도구는 가) 유형에 속하는 제품입니다. 만약 내가 가진 질문이 빈번히 발생하는 정형화된 질문이라면 굳이 EDA 도구를 쓸 필요가 없습니다. 그런 경우는 메트릭을 잘 정의해서 대시보드를 잘 꾸리면 되니까요. 반면, 비즈니스/서비스 환경에서 발생하는 질문들은 때때로 정형화되지 않은 질문(ad-hoc question), 대시보드를 보고 난 후에 사후적으로 발생한 질문인 경우가 있죠. 이 때는 실무자 입장에서는 EDA/Analtyics 도구 혹은 데이터 전문가/조직의 힘을 빌리는 수 밖에는 없습니다.

데이터 분석이 어려운 실무자: " 참 어려운 너 .. 데이터 .. "

그러나, 포토샵의 예시에서 볼 수 있듯이, 데이터 분석에 대해 무지하거나 숙련도가 낮은 95%의 일반인들은 내가 가진 질문에 대한 정답을 얻기 위해, 자유도가 너무나 높은 EDA/Analytics 도구를 어디서부터 어떻게 다루어야할지 다만 막막하기만 할 것입니다. 그러다 보니 결국에는 분석에 익숙하고 expertise를 가진 나머지 5%(분석가, 분석 조직)에게 의존할 수 밖에 없는 것이 현실입니다. 온 세상이 데이터 민주화(Data Democracy)라는 구호를 외치고 있지만, 실제로는 데이터 엘리트주의(Data Elitism)가 만연한 것입니다. 이것이 EDA/Analytics 도구가 지식 노동자들의 보편적 업무 도구로 자리잡는 일에 실패한 원인이라고 생각합니다.

HEARTCOUNT "당신의 데이터 분석 목적지에 잘 도착할 수 있도록, 이정표가 되어드릴께요"

그렇다고 해서, EDA/Analytics 도구가 "나" 같은 연말정산 같은 도구가 될 수도 없고 되어서도 안되겠지요? 오히려, 사용자가 원하는 목적지에 도달할 수 있도록, 데이터가 사용자의 영감과 만나 펼쳐질 수 있는 무한한 가능성을 열어두는(open-ended) 동시에, 친절한 표지판을 따라 가다보면 어느새 목적지에 도달해 있는 그런 방식(guided data journey)을 제시하는 것이 EDA/Analytics가 나아가야 할 궁극적인 방향이라고 생각합니다.



비즈니스를 위한 데이터 분석에 LLM을 어떻게 활용할까요?

작년부터 시작된 거대언어모델(이하 LLM)의 홍수와 함께, BI/Analytics 제품들도 너나할 것 없이 LLM을 자사 제품에 결합하고 있다고 소개드린 바 있습니다. LLM의 언어 이해 능력이라면, 95%의 일반 사용자들이 가지고 있는 내면의 막막함이 질문으로 던져질 때, 이를 적절한 분석 결과물로 치환할 수 있을 것이라는 기대로부터 기인한 결과일 것입니다.


그러나 HEARTCOUNT는 그 물결에 다만 휩쓸리지 않기 위해, 잠시 한 발자국 물러서서 LLM의 근본적인 면을 살펴 보았습니다. LLM이 할 수 있는 것과, 한계를 가지고 있는 것이 무엇인지 생각해 본 것입니다.

  1. LLM은 근본적으로 언어 모델이기 때문에, 자체적으로는 데이터 분석 결과물을 도출하는 다양한 연산을 수행할 수 있는 능력이 없습니다. 달리 말하자면, 자체적으로 수행할 수 없는 연산/결과 도출 프로세스를 처리할 수 있는 Analytics 도구와 필연적으로 결합할 수 밖에 없다는 것이죠.
  2. LLM은 분명히 전 세계를 뒤흔들고 있는 혁신적인 개념의, 현재까지 등장한 기술 중 가장 '인공지능' 스러운 기술임에 틀림이 없습니다. 그럼에도 불구하고, LLM을 데이터 분석의 모든 과정에 무턱대고 사용할 수는 없을 것입니다. 분석의 각 과정에서 LLM이 어떠한 역할을 수행할 수 있는지 고민해 보아야 합니다.

비즈니스 환경에서의 데이터 분석 과정은 통상적으로 다음의 분석적 추론(Analytical Reasoning) 과정을 거치게 되는데요.

💡
1. 사용자가 품은 비즈니스 질문
2. EDA/Analytics 도구의 분석 질문으로 치환한 후
3. 분석 질문을 분석 언어로 변환하고
4. 결과물을 도출하고(시각화, 테이블), 사용자가 이해하기 쉬운 언어의 형태로 요약
5. 사용자의 비즈니스에 빗대어 해석하고 적용

각 과정을 조금 더 자세히 살펴 볼까요?



1→2) 비즈니스 질문을 분석 질문으로 치환하기

  • 사용자가 가진 막연한 비즈니스 질문(1)은 데이터의 언어, 분석 질문(2)과는 거리가 멀 가능성이 높습니다.
  • 예를 들어, '이번 달에 도대체 왜 이렇게 매출이 떨어졌을까?'는 분석의 언어는 아닙니다. 순수한 비즈니스 질문이죠. '이번 달 매출과 전월, 전년 동기의 매출을 여러 요인 별로 aggregation 후 서로 비교해서, 가장 매출 하락에 큰 영향을 준 요인을 차분하여 찾아볼까?'라고 해야 비로소 분석 질문이라고 부를 수 있을 것입니다.
  • 95%의 일반 사용자의 입장, 즉 분석 용어에 익숙하지 않은 사람의 입장에서는 좋은 분석 질문을 떠올리는 것은 가당치 않은 일일 것입니다. 결국 이 부분은 좋은 성능을 가진 LLM이 언어 이해 능력을 십분 발휘하여, 사용자의 막연한 비즈니스 질문을 잘 이해하고 좋은 분석 질문으로 바꾸어내는 역할을 해 줄 것으로 기대해 볼 수 있습니다.
  • 전통적으로는, 이 부분이 인하우스 데이터 분석가의 역량이 가장 크게 필요한 영역이기도 합니다. 비즈니스의 맥락을 이해하고, 윗분들/다른 부서 직원들의 비즈니스 질문을 좋은 분석 질문들로 바꾸어 내는 것 말이죠. 문제는 많은 회사들이 그런 분석가들을 보유하지 못하고 있는 것이 사실이며, 설령 그렇다 하더라도, 규모가 어느 정도 있는 회사의 많은 부서에서 발생하는 모든 질문들에 대한 답변을 제공할 수 있는 여력이 있는 분석가/조직은 많지 않을 것입니다(5%). 결국 답변을 받기 위해 오랜 시간을 기다릴 수 밖에 없는 상황이 생기죠.
  • 이 부분을 해결하기 위해 기업들은 BI 제품 도입 및 Data Literacy 교육에 힘을 써왔지만, 실제로 기업 환경에서 '데이터를 활용한 의사결정'에 얼마나 큰 도움이 되었는지는 미지수입니다. 위에서 설명드렸다시피, 1차원적이고 반복되는 질문에 대한 답변은 BI를 통해서 얻을 수 있지만, 시시로 발생하는 복잡한 분석 질문(ad-hoc) 질문들은 보통은 분석가가 필요하니까요.

3) 분석 질문을 분석 언어로 변환하기

  • 다음은, 결과물을 도출하기 위해 분석 질문을 분석 언어(R, Python, SQL 등)로 변환하는 과정입니다.
  • 위의 예시에서 논의를 이어 보자면, '이번 달 매출과 전월, 전년 동기의 매출을 여러 요인 별로 aggregation 후 서로 비교해서, 가장 매출 하락에 큰 영향을 준 요인을 차분하여 찾아야겠다'라는 분석 질문을 대략 다음과 같은 코드, 분석 언어로 치환해야 합니다.
Pseudo-code for the given task:

- 주어진 데이터에서
 - {이번 달}, {전월}, {전년 동기}를 정의하고 (특히, 일/분/초 단위로 이루어진 데이터의 경우 해당 time-series 데이터에 대한 추가 전처리 작업 필요)
 - {여러 요인}으로 {상품군}, {지역}, {고객군} 등의 변수를 선택하고
 - {상품군}, {지역}, {고객군}별로 {매출}을 {이번 달}, {전월}, {전년 동기} 별로 aggregation하여 {매출 총합}을 계산하고
 - {이번 달}과 {전월}, {이번 달}과 {전년 동기}의 {매출 총합}의 차이를 계산한다
  • 복잡해 보이지만, 이미 분석 언어에 익숙한 5%에 속하는 인원이라면 능숙하게 코드로 해당 내용을 작성할 수 있을 것입니다. 물론, 95%의 일반 실무자들은 예외이지만요.
  • 이 또한 LLM이 충분한 데이터(분석 언어로 작성된 텍스트)를 학습한다면 해결할 수 있을 것이라고 시장에서 기대를 품고 있는 영역이기도 합니다.

4) 결과물 도출하기

  • 이번에는 3번 단계를 통해 계산한 데이터를, 사용자가 이해하기 쉽도록 시각화(차트, 테이블)하고 결과물을 요약하는 단계입니다.
  • 시각화는 기존의 시각화 방법을 활용하게 될 텐데요. 예를 들면 Tableau 등의 시각화 툴을 활용한다든지(이 경우 해당 툴의 시각화 문법을 이해해야 함), 혹은 R/Python 등의 분석 언어에서 자주 활용하는 Matplotlib, ggplot2 등의 라이브러리를 활용할 것입니다. 이 경우, 3번의 과정을 통해 생성한 데이터를 다시 해당 라이브러리용 코드로 2차 치환하는 과정이 필요합니다.
https://www.r-bloggers.com/2015/02/r-ggplot2-graph-catalog/
  • 다음으로 시각화 결과물(차트, 테이블)을 언어의 형태로 요약하는 작업입니다. 시각화에서 주목할 만한 사실들을 발견하고, 사용자가 주목할 만한 사실을 포착하여 언어의 형태로 이해하는 것입니다. 분석에 익숙하지 않은 사람에게는 이 부분도 벅찰 수 있습니다. 간단한 시각화라면 상관 없겠지만, 무엇이 '주목할 만한' 것인지 판단하기가 어려운 경우(예: 시각화가 다층적으로 구성되어 복잡성을 띄는 경우)가 존재하기 때문입니다.
  • 이 부분 또한 LLM이 앞으로 잘 하지 않을까라고 시장에서 기대를 품고 있는 영역이기도 하지만, 데이터 분석의 퀄리티를 결정짓는 중요한 요소 중 하나가 '정확성'이라는 점을 고려 시, 할루시네이션 현상이 시각화 결과물에 대한 오해석을 낳는 것이 우려가 되는 것이 사실입니다.

5) 사용자의 비즈니스에 적용하기

  • 최종적으로, 4번 작업의 결과물을 내 비즈니스에 알맞게 적용하는 단계입니다. 분석의 결과(시각화, 요약)를 나의 비즈니스(도메인, 데이터가 생성된 배경)에 대한 이해와 결합시켜, '인사이트'를 도출하는 단계입니다.
  • 전통적으로 4번까지의 작업을 descriptive, 5번 작업을 prescriptive라고 명명하기도 합니다.

각 과정의 Responsibility를 정리해 보자면, 2~3번 과정은 LLM의 언어 능력에 기대를 걸어볼 수 있는 영역일 것이고, 4번은 EDA/Analytics 도구 자체의 역할(분석 언어를 결과물로 전환)일 것입니다. 반면, 사용자 본인이 좋은 질문을 떠올리는 1번 및 도출된 결과를 해석하여 자신의 맥락에 맞게 활용하는 5번은 온전히 사용자의 몫일 것입니다.



ChatGPT-4o, 데이터 분석에 정말 쓸 수 있을까요?

여기까지만 보면, LLM과 사용자가 각자 역할 분담(?)만 잘 하면 LLM을 데이터 분석에 활용하는 것이 정말 어렵지 않아 보이기도 합니다. 그러나, 정말 그럴까요?

gpt-4o와 함께 새로 공개된 chatgpt의 데이터 분석 기능 UI / 출처: https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

먼저, 분석 질문을 분석 언어로 치환하는 부분은 최신 수준의 트랜스포머 기반 언어 모델(예: GPT)도 아직까지는 잘 하지 못합니다. 이는 얼마 전 시장을 달아오르게 만든 OpenAI의 최신 프로덕션 레벨 모델인 GPT-4o 또한 마찬가지입니다. GPT-4o가 공개되면서, ChatGPT는 데이터 분석 기능과 관련된 UI(컬럼을 선택하고 컬럼에 대한 질문 던지기, 차트와 인터액션, 구글 드라이브 연동 등)를 새로 추가하기도 했는데요. 막상 실제로 사용해보면 그리 뛰어난 성능을 보여 주지는 않습니다.

  • 이번 공식 문서를 보면, 두 기간/집단 사이의 차이를 비교할 때 유용한 Waterfall 차트를 지원한다고 나와 있었습니다. 그래서, 실제 데이터를 건네주고 그려 달라는 요구를 했더니, 5회 정도 코드 작성을 실패한 후, 코드를 실행할 수 없으니 사용자 본인의 로컬 환경에서 직접 돌려보라는 황당한(?) 답변을 주었습니다. 여러 회 프롬프팅 엔지니어링을 통해 시도해 보아도 마찬가지의 결과를 얻었는데요. 95%의 일반 사용자 입장에서는 코딩을 하지 않으려고 GPT를 사용하는 것일 텐데, 거꾸로 코드를 알아서 실행하라는 것은 어불성설일 것입니다.
분석용 코드 생성 실패하는 GPT-4o
  • 또한, 여러 번의 작업을 거쳐 생성한 차트 결과물이 정확하지 않습니다. 아래는 GPT-4o를 사용하여 생성한 Waterfall 차트인데요. 둘 다 정확한 Waterfall 차트로 보기 어렵습니다. 차트를 생성하기 위해 작성한 Python-Matplotlib 코드가 정확하지 않기 때문입니다. 4번 과정에서 실패한 것이지요.
ChatGPT, 너 왜 이렇게 당당하니
일반적인 Waterfall 차트 예시. https://www.ablebits.com/office-addins-blog/waterfall-chart-in-excel/

  • DataGPT 등의 LLM 기반 데이터 분석 제품은 이를 방지하기 위해, LLM이 작성한 코드와 로직을 사용자에게 '투명하게' 공개하고, 이를 직접 확인해서 할루시네이션을 방지하라고 하기도 합니다. 또한, ChatGPT의 경우에는, 데이터 분석 기능을 사용 시 모든 코드를 보여줄지, 보여주지 않을지 선택할 수 있는 옵션이 있기도 합니다. 해당 옵션을 끄고 이 기능을 사용한다면, "LLM이 알아서 잘 해주겠지"라는 막연한 믿음을 바탕으로 분석을 해야 하는 상황인 것입니다.
ChatGPT 옵션
  • 결국에는 LLM이 생성한 분석 언어(코드)를 해석하고, 잘 작성했는지 검수하고 실행할 나머지 5% 전문가의 역할이 다시 부상될 수 밖에 없는 상황입니다.
  • 또한, 시각화 결과물 도출까지는 어느 정도 잘 마무리되었다 해도, 결과물을 해석(4번)하는 부분 또한 조심스럽습니다. 차트와 테이블에서 유의미한 정보를 도출하고 해석하는 부분에서 hallucination이 발생한다면, 사용자가 잘못된 결론을 도출하게 될 가능성이 존재하니까요. GPT가 도출해 낸 분석적 추론 결과물에 대해 다시 검수하고 정확성을 확인해야 하는 작업이 추가로 발생하게 되는 것입니다.

이처럼, 데이터 분석의 각 단계별로 LLM은 오차를 발생시킬 가능성이 존재합니다. 그리고 사용자가 지적하기 전까지는 자신이 오차를 만들었다는 사실조차 인지하지 못하는 것이 현재로서는 현실이죠.

데이터 사이언스 용어 중에 error propagation이라는 것이 있습니다. 어떤 단계 i에서 발생한 오차(error_i)는 다음 단계 i+1로 전달되고, i+1에서의 계산은 이미 이전 단계에서 발생한 오차를 포함한 계산이 되어, 결과적으로 다시 오차를 만들어냅니다. 이 단계가 반복되다보면 결국에는 오차가 쌓여 최종 결과물을 신뢰할 수 없게 된다는 개념인데요. 마치 '고요 속의 외침' 같은 게임을 하다 보면, 처음의 제시어가 단계별로 틀어져버려 결과적으로는 전혀 엉뚱한 답변을 하게 되는 것과 같습니다.

LLM을 데이터 분석에 활용하는 것 또한 이와 같은 위험성이 있습니다. 각 단계에서 조금씩 누적된 오차(환각)는 최종적으로 사용자에게 부정확한 결론을 제시할 수 있고, 이는 신뢰성과 정확성이 꼭 필요한 데이터 분석에 있어서 치명적입니다.

출처: KBS

결론적으로, 분석적 추론(Analytical reasoning) 작업을 LLM에 전적으로 의존하는 것은 현재로써는 적절하지 않은 것으로 보입니다.




HEARTCOUNT AI Analytics는 뭐가 다른가요?

From Creation To Selection: 사용자의 막막함은 줄이고, 정확성은 늘리고

그래서, HEARTCOUNT는 바로 이러한 문제, 곧 시장의 기대와 실제 LLM이 제공할 수 있는 결과물 사이의 괴리를 메우기 위해, AI 데이터 분석(AI Analytics) 기능인 HERATCOUNT Dialogue를 선보이게 되었습니다.

HEARTCOUNT의 AI Analytics 기능, Dialogue
  • Dialogue는 사용자 앞에 Blank State(백지)를 제공하는 대신, 주어진 데이터에 대해 분석적으로 적절한 선택지(분석 질문)를 직접 제시하여 사용자의 막막함을 해소하고, 질문을 떠올리는것부터 시작되는 인지적 부하(cognitive overload)를 줄이고자 합니다. (1 → 2번 과정)
  • 또한, 사용자가 선택한 질문에 대해 적절한 시각화 결과물 및 해석을 도출하여 사용자에게 제공합니다. 결과물을 도출하는 것은 이미 기존의 HEARTCOUNT가 보유하고 있는 잘 정의된 시각화/분석 엔진을 활용하여, 오류가 발생하지 않습니다. (3, 4번 과정)
  • 특히, 해석을 도출하는 일은 LLM의 힘을 빌리지 않고, 자체 자연어 분석 모델(ALM, Analytical Language Model)을 활용했습니다. 양질의 데이터 분석 보고서를 레퍼런스삼아, 현재 선택지에 대한 최적의 분석적 해석, 주목할 만한 사실들을 식별하고 도출하는 모델입니다. LLM의 트랜스포머 아키텍쳐가 근본적으로 품고 있는 hallucination 현상의 발생 가능성이 없습니다. 또한, 어려운 용어를 사용하는 것을 최대한 방지하고, 비즈니스의 용어로 개발하여 누구나 쉽게 이해하고 활용할 수 있습니다.

Dialogue의 실제 작동 예시
💡
95%의 일반 현업 사용자들도, AI 분석 도구인 Dialogue가 제시하는 길을 따라가다 보면(guided journey), 기존에 분석가/조직에 의존해야만 했던 데이터 분석 작업을 수행하고 좋은 분석 보고서를 작성하는 목적지에 오차와 환각 현상에 대한 우려 없이 손쉽게 도달할 수 있을 것으로 기대합니다.

HEARTCOUNT AI Analytics, Dialogue는 다가오는 2024년 6월 중으로 만나보실 수 있습니다!




HEARTCOUNT AI Analytics, 앞으로가 더 기대돼요!

분석 결과물(시각화, 요약)의 정확도신뢰도가 데이터 분석의 중요한 핵심 중 하나라는 점을 고려하여, HEARTCOUNT의 AI 분석 기능인 Dialogue의 핵심 가치, 즉 결과물을 생성하고 결과를 텍스트로 요약하는 과정은 저희의 분석 언어 모델인 Analytical Language Model의 손에 앞으로도 맡길 예정입니다.

그렇다고 해서 LLM에 대해 마냥 부정적인 것은 아닙니다. 다만 LLM이 잘 할 수 있는것(언어 능력)과 그렇지 않은 것(분석적 추론)을 잘 구별하고, 잘 할 수 있는 것을 더 잘 할 수 있게 해 주려고 합니다. 그래서 남은 올 한 해, 다음과 같은 방향으로 Dialogue를 더욱 발전시키고 개선시켜나갈 계획입니다.


내 데이터와 도메인에 알맞는 분석으로

노션이 성공한 데는 아마 제품에 딸려오는 수많은 Template들이 한몫 했을 겁니다. Dialogue가 던지는 질문들은 현재로서는 도메인과 무관한 universal template이지만, 앞으로는 domain-specific 질문들을 제시하는 수준으로 진화할 것입니다.

  • 이 부분에서 LLM을 적극적으로 활용할 수 있을텐데요. Dialogue가 현재 보유한, 그리고 앞으로 더욱 풍성해질 질문 목록을 사용자의 데이터셋에 알맞게 rephrasing할 수 있게 될 것입니다. 데이터셋의 컬럼명과 카테고리 변수 등은 도메인에 대한 언어적 맥락을 LLM에게 전달할 수 있는 좋은 정보가 되니까요.
  • 또한, 사용자가 Dialogue를 통한 분석의 과정에서 내리는 선택의 길을 더욱 개선해 나갈 것입니다. 과정으로서의 데이터 분석(분석 보고서 작성)은 수많은 선택의 연속입니다. 사용자가 선택할 default 선택을 metrics tree의 관점에서 더욱 smart하게 개선해 나갈 생각입니다. 예를 들어, 만약 주어진 데이터에서 사용자가 현재 관심있는 지표(metric)가 '매출'이라면, LLM의 언어 이해 능력은 이와 인과적으로 연관성이 있을 법한 다른 지표들의 인과 고리를 '예상'할 수 있습니다. 예를 들면 아래와 같이 말이죠.

당신의 막막함 가득한 질문을 훌륭한 분석으로

위에서 살펴본 1번 → 2번 과정, 즉 비즈니스 질문을 분석 질문으로 치환하는 과정사용자의 비즈니스 언어를 잘 이해하여 분석 질문으로 바꾸어내는 언어적 이해가 필수이고, LLM의 언어 능력은 이 부분에서 큰 힘을 발휘할 수 있을 것이라 생각합니다.

  • 앞으로는 사용자가 비즈니스 언어로 직접 입력하는 질문을 수용하고, 이를 Dialogue가 제시하는 분석의 길, 분석적으로 적절한 분석 질문으로의 변환의 역할을 LLM이 잘 수행해주어, 내가 가진 막연한 질문이 내 도메인/비즈니스적으로 적절한 답안으로 연결되는, guided journey 경험을 사용자에게 제공할 것입니다.
  • 또한, 현재는 Dialogue가 제시하는 분석의 길이 제한적이고, 내 도메인/데이터셋에 맞는 정답을 얻기 위한 길이 보이지는 않을 수도 있습니다. 이를 위해서 점진적으로 다양한 도메인에 적합한 journey를 넓혀가고, 또한 사용자가 직접 자연어로 입력한 질문에 대한 답변을 제공하는 부분까지 개발해 나갈 것입니다.

인사이트부터 보고서 작성까지

Dialogue를 통해 도달한 결론을 사용자의 비즈니스 맥락에 맞게 잘 활용하려면, 분석의 결과를 비즈니스의 언어로 다시 바꾸어내야 합니다.

  • 단순히 '어느 지역에서 매출이 유달리 낮다'라는 결과 자체는 그저 fact statement이지만, 이를 통해 '해당 지역에서 추가적인 프로모션 활동 혹은 점검 활동이 필요하다' 등의 actionable insight까지 도출되어야 데이터 분석은 확연한 가치를 지닐 것입니다.
  • 물론, 이는 알고리즘이나 언어 모델에게 전적으로 의존할 수 없는, 도메인과 비즈니스에 대한 '감'이 필수적인 부분입니다. 다만, 그러한 결정과 판단을 내리는 데에 도움이 될 수 있도록, Dialogue를 통해 분석해낸 fact statement(정량적 영역, 정확도/신뢰도 중요)들을 종합(synthetization)하고, 데이터셋 도메인에 알맞은 인사이트를 정리(정성적 영역, 언어 능력 중요)하는 부분에서는 LLM이 큰 쓸모를 보일 수 있을 것입니다.
  • 결과적으로, Dialogue를 통해 정확하고 신뢰도 있게 생성한 fact statement → fact statement를 종합하여 도메인에 알맞게 잘 정리한 insight까지 사용자가 쉽고 빠르게 도달하게 하는 것이 목적입니다. 여기에, 워드프로세서 등의 양식으로 해당 내용을 담은 데이터 분석 보고서 초안을 전달해 줄 수 있다면 더욱 금상첨화겠지요.



마치며

HEARTCOUNT의 새로운 AI Analytics 제품인 HEARTCOUNT Dialogue는 데이터 분석의 민주화를 향한 중요한 발걸음을 내딛고 있습니다. 앞으로 HEARTCOUNT Dialogue정확하고 신뢰도 높은 분석적 추론 능력과 LLM의 언어 능력이 결합되어, 여러분이 품은 막연한 비즈니스의 질문들이 유용한 인사이트와 보고서까지 도달할 수 있도록, 여러분의 분석 여정(journey)을 잘 인도(guide)해 드릴 것입니다. 이를 통해 데이터 분석이 전문가의 전유물이 아닌, 95%의 당신에게 열린 도구가 되기를 기대합니다.




💖
Everyone is an Analyst.
HEARTCOUNT는 모두를 위한 데이터 분석 도구입니다.
구글 계정으로 시작하기