데이터의 길이 세상의 길과 이어지기 위해서

데이터의 길이 세상의 길과 이어지기 위해서

본 웨비나(블로그)에서는 의사결정에 활용할 수 있는 세가지 정보의 원천과 정량적 자료 분석 결과의 세가지 유형을 살펴본 후, 데이터에서 noise와 signal(쓸모있는 패턴)을 구분하는 이론과 실용적 방법들에 대해 논의하려고 합니다. 그리고, 검토했던 이론을 토대로 실제 데이터셋에서 노이즈와 시그널을 구분하는 시연으로 마무리할 예정입니다. 모쪼록, 데이터에서 찾은 길이 여러분이 발딛고 있는 세상의 길과 이어지는데 본 웨비나(블로그)가 도움이 되길 바랍니다.

목차

요즘은 “데이터 기반 의사결정”, "데이터 리터러시" 같은 얘기를 잘 하지 않지요. 기업들이 운영 효율을 이루고, 고객과 시장에 대한 정교한 이해로 경쟁 우위를 차지해 시장에서 살아남으려면 데이터를 수집하고 데이터에 담긴 패턴(시그널/인사이트)을 찾아 의사결정에 활용해야 한다는 주장이 대략 15년전부터 기업들에게 일종의 정언명령처럼 작동했었습니다. 같은 맥락에서 기업 실무자들이 반드시 배워야하는 미래 스킬로 "Data Literacy"가 각광을 받기도 했습니다.

하지만, 데이터가 담고 있는 세상에 대한 정보의 빈약함(발생했던 일만 수집되고 발생할 가능성이 있었던 수많은 일들은 배제됨)과 모호함(의사결정에 활용할 수 있는 패턴인지 아니면 우발적인 패턴인지 구분하는 일의 어려움)을 탓하며 결국 믿을 건 직관과 개인적 노하우라 생각하는 사람들(Data Skeptic, 반지성주의?) 역시 그 수가 꾸준히 증가하고 있습니다.

본 웨비나(블로그)에서는

  • 의사결정에 활용할 수 있는 세가지(3) 정보의 원천 중 하나로서 정량적 자료에 대한 해석에 대해 살펴 본 후,
  • 정량적 자료 분석 결과의 세가지(3) 유형 중 noise와 signal(쓸모있는 패턴)의 차이에 대해 설명한 후,
  • (실험 데이터말고) 관찰 데이터를 활용하여 지표의 차이를 이해하는 일의 중요성과 그 실용적 방법에 대해 논의한 후,
  • 데이터셋으로 노이즈와 시그널을 구분하는 분석 시연으로 마무리할 예정입니다.

모쪼록, 데이터에서 찾은 길이 여러분이 발딛고 있는 세상의 길과 이어지는데 본 웨비나(블로그)가 도움이 되길 바랍니다. 저는 HEARTCOUNT의 Sidney입니다.

🎬
이번 블로그는 10월 웨비나에서 직접 소개해드릴 예정입니다 :) 저자의 목소리로 블로그 이야기를 듣고싶으신 분, noise와 signal을 구분하는 분석 시연을 직접 보고싶으신 분이라면 지금 바로 웨비나에 등록 해보세요!
[10/24 목 오후2시, 무료 등록하러 가기]

3x3

3x3-a: 의사결정을 위한 정보의 세가지 원천

사람이 오감을 가지고 세상을 이해한다고 했을 때, “시각은 믿을 기관이 못되니 청각에 보다 집중해야 해!”, 이런 이야기를 하지는 않습니다. 마찬가지로 기업 내 주요 의사결정에서도 아래 세가지 정보의 원천(감각)을 종합적으로 사용해야 합니다.

  • 직관: 경험을 통해 축적된 세상의 작동방식에 대한 멘탈 모델
  • 질적 자료에 대한 해석: 고객의 정성적 의견, 피드백에 대한 해석 (정성 데이터에 대한 표준화된 해석 방법이 없는 관계로 그 해석은 직관의 영향을 크게 받게 됨)
  • 정량적 자료에 대한 해석

데이터, 또 하나의 감각 기관

자신이 알지 못하는(직관이 형성되지 않은) 어떤 질문에 대한 답을 찾고자(가설을 검증하고자) 한다면, 질적 조사(고객들과 이야기를 해보자)와 정량적 분석(실험을 설계하여 수집된 데이터나 이미 관측된 데이터로 가설을 검증해보자)을 활용할 수밖에 없습니다.

제품 성장이 둔화된 이유에 대해 다음 질문들을 떠올려볼 수 있습니다.

  1. 우리 제품의 존재를 이미 알고 있는 사람들이 왜 우리 고객이 되지 않을까?
  2. 기존 고객들 중 제품을 많이 사는 고객과 그렇지 않은 고객의 차이는 뭘까?

첫 번째 질문의 경우, 시장조사(서베이) 등 질적 조사를 수행해야 할 것이고, 두 번째 질문에 답하기 위해서는 고객의 행동 데이터를 분석해서 두 집단의 차이를 이해하는 정량적 분석이 필요할 것입니다.

데이터에 담긴 패턴과 그 해석이 기업 내 의사결정을 위한 유일한 축은 아니지만, 직관과 함께 상보적으로 활용되어야 하는 주요한 축이라는 사실에 공감하길 바랍니다. 이 글을 읽는 여러분들의 마음이 그러하다는 가정 아래 이야기를 이어가 보겠습니다.

3x3-b: 정량적 자료 분석 결과의 세가지 유형

정량적 자료의 분석 결과는 그것이 - 엑셀의 피봇이나 SQL 쿼리의 결과이든 Python/R 코드를 통한 통계적 분석의 결과이든, 아니면 ChatGPT가 알려준 결과이든 - 아래 세가지 유형 중 하나에 속하게 됩니다.

  • Confirmation: 이미 알고 있던 사실(Known)의 정량적 확인
  • Noise: 흥미롭지만(Unknown) 못 미더운 사실의 발견
  • Signal: 흥미롭고(Unknown) 유용한 사실의 발견

1. 이미 알고 있던 사실의 확인

“우리가 이미 알고 있던 것(멘탈 모델)”이 데이터를 통해 확증되는 경우입니다. 알고 있던 사실이 정량적으로 좀 더 정교하게 표현될 수 있지만, 큰 틀에서 기존 지식을 확인하는 것이라고 생각할 있습니다. (지식의 생산 및 확장 X, 지식의 확인 O) 예를 들어, “소득 수준이 높은 고객이 더 비싼 제품을 구매한다.”, “추운 지역에서 겨울옷이 더 많이 팔린다.”와 같이 알고 있던 사실을 확인하는 경우입니다.

2. 흥미롭지만 의사결정에 활용하기 어려운 사실

우리가 몰랐던 것이지만, 의사결정에 활용하기 어려운 패턴들입니다. 세상의 소음, 운의 영향으로 인해 발생한 일회성 현상이거나 우리가 이해하거나 통제할 수 없는 존재의 작용으로 인해 발생한 결과입니다. 이런 것들이죠.

  • Noise: 커피 판매량이 전주 대비 4% 증가했다. 근데, 판매량은 매주 5% 내외에서 꾸준히 출렁여 왔음. (위글 위글 꿈틀대는 차트)
  • External Event: 지난주 부산 커피 판매량이 200% 증가했다. 근데, 지난주에 부산에서 국제 영화제 열렸음.
  • Good to Know(So What?): 제품 할인률이 높으면 순이익이 줄어든다. 1킬로 이내 경쟁업체수가 증가할수록 매장 매출이 줄어든다(음의 상관 관계). 근데, 어쩌라고요..
  1. 쓸모있는 정보, Signal

반면, 새로운데(Unknown) 유용하기(Useful)까지 한 사실을 Signal이라고 정의할 수 있겠습니다. 우리가 미처 몰랐던 것들(unknown unknown) 중 의사결정에 활용하고 실행에 옮길 수 있는 패턴들입니다. 예를 들어,

  • 웨비나를 통해 유입된 고객들에게 서비스 가입 후 24시간 이내 개인화된 메일을 보내면 유료 전환될 가능성이 그렇지 않은 경우보다 20% 높아 진다.
  • 10만원 이상 주문 시 무료 배송을 제공하는 것이 오히려 이익을 감소시킨다. (10만원 살짝 넘게 주문)

Signal - 집단 간 차이(Variation)를 이해하는 것

저는 관찰 데이터에서 집단 간 경영 지표의 차이(Metrics Variation)를 이해하는 것이 비용 효과적으로 지식 확장과 생산에 기여한다는 점에서 데이터 기반 의사결정의 핵심이라고 생각합니다. 달리 말해, 데이터가 지식 생산을 위한 수단과 도구가 되려면, 실무자가 관찰된 지표 차이가 무시해도 좋은 변화(Noise)인지, 아니면 주목해야하는 특별한 변화(Signal)의 반영인지 쉽게 구분할 수 있어야 합니다.

Signal과 Noise를 구분할 때 데이터의 종류(실험 데이터 vs. 관찰 데이터)에 따라 고려해야할 것이 있습니다. 그 이야기부터 해보겠습니다.

  • 실험 데이터: 구체적인 질문에 답하기 위해 수집된 데이터로 A/B 테스트를 생각해보면 될 거 같습니다.
  • 관찰 데이터: 사업의 부산물로서 수집된 데이터입니다. 웹 트래픽, 매출 데이터 등이 대표적입니다. 비용 효과적으로 Signal을 발견할 수 있는 데이터입니다.

실험 데이터

"사용자 On-boarding 시 A라는 변화를 주었더니 전환률이 18% 증가했다."라는 주장에 대한 우리의 익숙한 반응은 아마도 "그게 통계적으로 유의미한가요?"일것입니다.

실험을 하는 것은 비용이 드는 일인지라, 제한된 데이터로 일반화된 주장을 하기 위해 우리는 통계 검정 방식을 빌어 실험 결과가 우연으로 발생했을 확률이 5%이하이면 통계적으로 유의미하다고 결론내자는 합의를 하였습니다.

데이터로 집단 간 차이를 논하고 싶다면
데이터로 두 집단의 차이를 설명해야 할 때가 있죠. 어떻게 유의미한 차이를 발견하고 액션으로 이어질 수 있는 인사이트를 낼 수가 있을까요? 통계적 유의미성과 실용적 유의미성을 모두 고려하며 집단의 특성을 데이터로 비교해 보세요.

통계 검정, 통계적 유의미성에 대해 좀 더 알고 싶다면 이 블로그 추천

관찰 데이터

반면, "우리 매출이 지난 달에 비해 15% 감소했다."라는 이야기에 대한 우리의 반응은 어떤가요? 어때야 하나요?

노련한 실무자라면, "잠시만요. 이게 Noise에 의한 자연스러운 차트의 꿈틀댐인지 아니라 뭔가 구조적 변화의 반영인지 확인해 보겠습니다."라고 말할 수 있어야 합니다.

실험 데이터에서 중요한 것이 제한된 데이터에서 발견된 구체적 사실에 대한 통계적(실용적) 유의미성을 따지는 것인 반면 관찰 데이터에서 중요한 것은 지표의 변화와 차이(Variation)를 이해하고 능숙하게 다루는 일입니다.

관련해서 Donald J Wheeler가 한 이야기

Donald J Wheeler는 SPC(Statistical Process Control - 제조, 서비스 분야에서 지표 변동의 원인을 찾아 품질 및 프로세스의 효율화를 꾀하는 것을 다루는 학문)의 대가인데 관련해서 다음과 같은 이야기를 했습니다. (원문을 취사선택해서 옮깁니다.)

data are a by-product of operations you will usually be trying to operate the process in some steady state. Here you will usually want to know whether or not an unplanned change has occurred. This is a completely different question from the one considered with experimental data.

Here we are not looking for a difference that we think is there, but asking if an unknown change has occurred. Before we sound an alarm we will want to be reasonably certain that a change has indeed occurred, making our approach to analysis conservative. (중략)

Thus, with an Observational Study, we perform a sequential analysis using a continuing stream of data while looking for signals of any unknown or unplanned change which may occur. To minimise false alarms we require a trivial risk of a false alarm for each individual act of analysis.

관찰 데이터로 지식 생산하기

데이터 기반 의사결정의 목적은 결국 비용 효과적으로 새로운 지식을 생산하고 기존 지식을 정교화하는 것입니다. 실무자가 주로 다루는 데이터가 관찰 데이터라고 생각했을 때 구체적인 질문에 대해 답하기 위해 수집된 데이터에서 인과적 지식 생산을 하는 실험 데이터 분석과 달리 관찰 데이터에서 지식을 생산하기 위해서는 지표의 차이를 효과적으로 이해하고 그 안에서 시그널을 찾는 것이 중요합니다.

[Monthly Webinar] 9. 상관 관계로 인과성에 대해 이야기하는 법 (인과적 추론에 대하여)
상관 관계와 인과 관계의 차이를 이해하고 상관 관계로 인과성을 주장하는 방법까지 알아 보세요. 실무 실제 사례를 케이스 스터디해보며 더 자세히 알아 봅시다.

관찰데이터로 인과성에 대해 이야기하는 법


데이터의 길이 세상의 길과 이어지기 위해서는

사업 운영의 부산물로 축적된 관찰 데이터에서 지식 생산하는 일은 그 중요도에 비해 아직 체계적인 이론적 토대나 best practice가 전파되지 못하고 있습니다. 우리가 이미 가지고 있는 데이터에서 찾은 길이 지식이라는 고리로 세상의 길 이어지기 위한 방법을 조심스럽게 제시합니다.

폰지 사기(Ponzi Scheme)를 잘 끝내는 법

폰지 사기를 운영하고 있는 사람에게 대략 세 가지 선택지가 있습니다:

  1. 계속 사기행각을 이어가기: 종국에는 더 큰 처벌을 받게 됨
  2. 사기를 중단하기: 투자자들에게 진실을 밝히고 속죄하여 감형이라도 받기
  3. 사기를 비즈니스로 전환하기: 남은 자금 활용하여 사업을 시작해서 성공시키기

위 내용을 "데이터 기반 의사결정"에 조심스럽게 적용해 볼 수 있습니다. 데이터 분석이 기업에 크나큰 가치를 가져올거라는 믿음으로 시작해서, 이 솔루션이 도입되면, 저 제도가 개선되면, 그분들이 바뀌면, "쨍하고 해뜰날"이 올 거라는 희망으로 10여년을 버텨왔습니다. 이제 헛된 약속 대신 최소한의 비용으로 가치를 만드는 Data Economics(ROI)를 이야기하고 실천해야 합니다.

알 수 없는 걸 알려는 비용 - Know When to Finish

비유를 하나 들어보겠습니다.

데이터가 우리집 뒷마당이라고 생각해 봅시다. (넓은 마당을 가진 미국의) 누군가 마당에서 금괴를 발견했습니다. 모두가 우리집 마당에도 금괴가 있을 거라 합니다. 금괴가 쉽게 발견되지 않습니다. 마당의 크기가 문제라고 얘기합니다. 데이터를 더 많이 수집합니다. 마당을 파는 방법이 문제라고 생각합니다. 최신의 데이터 도구를 도입합니다.

모두의 마당에 금괴가 있다는 가정이 잘 못되어 있는 건 아닐까요? 아래 그림과 도식처럼 나의 (관찰) 데이터에서 알 수 있는 것의 한계를 알고, 노력의 최적점을 정해야 합니다.

무수히 많은 가능성, 경계가 필요해..

"페이스북 광고를 통해 유입된 방문객과 웨비나를 통해 유입된 방문객의 전환률에 어떤 차이가 있나요?"라는 질문과 달리 “지난 분기 매출이 왜 감소했나요?"라는 질문에 답하기 위해서 무수한 가능성이 존재합니다.

주어진 지표(매출)를 수집하고 있는 차원(범주형 변수)으로 쪼개면 무수한 가능성이 펼쳐집니다. 무작위로 조합된 차원의 조건들(지역x제품군, 유통채널x요일..)이 지어내는 의미들이 모두 대등하다고 할 수는 없습니다. 의미생산을 위해서는 무수한 가능성에 경계가 필요합니다.

움베르토 에코가 ‘해석의 한계’에서 지적한 것처럼 ‘될 수 있는 것’과 ‘될 수 없는 것’ 사이에 경계가 없으면 텍스트(데이터)는 의미 있는 세계가 아니기 때문입니다. 현실 세계의 길이나 데이터 세계의 길이나 무수한 가능성 안에 경계를 짓는 일이 중요합니다.

시그널 발견(지식 생산)하는 일에서 가설의 중요성

데이터를 이리 저리 탐험하다 보면, 수많은 가능성(변수의 조합)이 펼쳐지고 필연적으로 흥미로운 발견을 하게 됩니다. 하지만 데이터 분석이 보다 실용적인 일이 되려면 가설/이론없는 데이터 중심 분석(Brute-force Data-centric Analysis) 대신 가설 중심(Hypothesis-First) 분석이 필요하다고 생각합니다.

Hypothesis-First Analysis

(데이터팀이/실무자가) 데이터를 이리 저리 쪼개다(drill-down) 보면 나오는 무수한 통계적으로 유의미한 차이들이 비지니스 맥락에서도 의미가 있으려면 분석의 조건들이 (현업부서의/의사결정권자의) 평소 궁금증(가설)과 통해야 합니다.

Growth 팀, 영업 등 현업 부서들이나 의사결정권자들은 이미 고객에 대한 견고한 정성적, 정량적 이해를 가지고 있기 쉽습니다. 고객과 직접 이야기하거나 SNS를 모니터링하면서, 고객의 행동 데이터나 매출 데이터를 관찰하면서 고객에 대한 직관을 발전시키게 됩니다.

데이터 분석 보고서를 쓰는 두 가지 방법
데이터가 오늘의 질문을 대충 수습하는 일을 뛰어 넘으려면, 사실의 제공 대신 의사결정권자의 mental model을 바꾸는 일에 기여하도록 해야 합니다.

"데이터 분석 보고서를 쓰는 두 가지 방법"이라는 웨비나에서 행동가능한 통찰(Actional Insight)이 아니라 지식 생산이 필요하다고 이야기하였습니다. 주요 내용을 옮겨 보면,

데이터가 오늘의 질문을 대충 수습하는 일을 뛰어 넘으려면, 건조한 사실의 제공 대신 의사결정권자의 mental model을 바꾸는 일에 기여해야 한다. 의사결정권자의 경험과 직관과 싸우려하지 말고, 그들의 경험과 직관을 정교하게 최신의 정보로 업데이트할 수 있는 정보를 제공해야 한다. "특정" 상황에서 "특정" 패턴이 발견되었으니 "특정" 행동을 취하는 편이 좋겠다는 주장은 System 1(경험과 직관)을 바꾸지 못한다. 해당 발견이 새로운 지식과 이론이 아니라 우연이라고 치부하게 되기 때문입니다. 이론과 지식은 사람들에게 세상을 다르게 보라고 요구하는 힘이 있다. 이론은 우리를 멈추게 하고 반추하게 만들지만, 단편적인 사실과 통찰에 우리는(System 1) 꿈쩍도 하지 않는다. 데이터에서 "행동 가능한 통찰" 대신 세상과 사업에 대한 지식과 이론을 생산해야 한다.

맺는말 - 일상으로서의 데이터 분석

가설을 세우고, 관련 실험을 설계하여 데이터를 수집하고, 제한된 데이터로 가설을 위태롭게 검증하는 대신 관찰 데이터셋에 담겨 있는 지표 변화를 설명할 수 있는 무수한 가능성을 데이터 도구가 제공해야 합니다. 실무자가 타인의 도움없이 본인의 가설을 주체적으로 검증할 수 있을 때 실무자의 일상 속에 데이터가 자연스럽게 스며들어, 데이터에 담긴 길이 세상의 길과 이어지는 실용적이고 비용 효과적인 데이터 활용이 가능해질 거라 생각합니다.

다소 긴 글이라 그 요지를 정리해 봅니다.

  • 데이터 중심(Data-Driven) 조직이 되자는 이야기는 그 목적이나 방법에 대해 구체적으로 이야기하고 있지 않아 공허합니다.
  • Cloud에 Modern Data Stack을 구축해야 한다거나 Analytics Engineer 직무를 신설해야 한다거나 GenAI 기술로 데이터 분석의 민주화를 이루어야 한다 등 그간 유행했거나 유행하고 있는 논의들은 "Data-Driven"의 구체적 목적이나 지향점에 대해 말해주지 않습니다.
  • (데이터가 그 자체로 사업의 핵심 가치를 만들지 않고 있는 대부분의 조직들에게) 비용 효과적으로 데이터에서 지식을 추구하고 생산하는 일이 데이터에 대한 투자의 목표이어야합니다.
  • 그러려면 주요 경영 지표의 변화에서 비지니스를 움직이는 통제가능한 인과적 요인(Signal)과 통제할 수 없거나 우연의 영향(Noise)을 실무자들이 쉽고 빠르게 구분할 수 있어야 합니다.
  • 이것이 가능할 때, 실무자들이 내 업무에 대해 품고 있던 의문(가설)들을 빠르게 데이터로 확인하여 전략적, 운영적 의사결정에 주체적 능동적으로 활용할 수 있게 됩니다. 데이터가 개인과 조직에게 더 정확하고 정교한 세상을 보여주고 새로운 가능성을 펼쳐주는 수단이 될 수 있습니다.

HEARTCOUNT로 데이터에서 시그널 찾기 실습

HEARTCOUNT Dialogue의 새로운 기능인 Signal 시연을 통해 일상의 질문에 대해 데이터로 답하는 작업에 데이터 도구가 어떻게 기여할 수 있는지 함께 살펴보도록 하겠습니다.

HEARTCOUNT Signal

HEARTCOUNT Signal은 주목할 만한 지표 변화와 지표 변화의 요인을 기여도, 변화율 등 다양한 관점에서 알려드리는 Dialogue의 새로운 기능입니다.

  • 운(Noise)에 의해 지표가 출렁인 경우와 주목할 만한 환경 변화로 지표가 변화한 경우(Signal)를 구분하여 제시합니다.
  • 모든 변수의 조합으로 지표 변화를 계산하여, 전체 지표 수준에서 변화가 없는 경우에도 경영 환경 변화를 선제적으로 파악하고 대처할 수 있습니다.
  • 연속 증가(감), 급변동(outlier), 추세 전환(trends shift) 등을 간단한 조작으로 탐지할 수 있습니다.

지표 변화, 아마도 선물

일관된 품질을 유지하는 것이 중요한 제조업에서는 지표의 예외적 변동이 바람직하지 않은 경우가 많습니다. 하지만, 여타 산업에서의 지표 변화는 오히려 사업 기회로 이어질 수 있습니다. 지표가 꾸준히 증가(감소)하고 있거나, 추세 전환이 된 경우 관련 원인을 조사하여 그 요인을 제거하거나 강화해서 지표 개선에 활용할 수 있습니다.

HEARTCOUNT Signal로 지표 변화가 선사하는 지표 개선의 기회 놓치지 마세요.

무료 데이터 분석 툴, 비전문가도 쉽게
Everyone is an Analyst! 구글에 검색하듯 데이터에 질문하세요. 분석가 없이도 데이터에서 쉽게 인사이트를 찾을 수 있습니다. 지금 바로 무료로 시작해 보세요.

*signal 기능은 10/26 릴리즈 됩니다 :)


남겨 놓은 이야기

다음 기회에는 아래 주제에 대해 좀 더 이야기를 발전시켜 보려고 합니다.

  • (관찰) 데이터에서 지식 생산하는 일에 있어서 데이터 도구의 역할
  • 데이터에서 지식 생산하는 일에서 GenAI의 역할

함께 읽어 보면 좋은 글들

HEARTCOUNT Signal: 지표의 우연한 변화와 중요한 변화를 구분해 줍니다
하트카운트 시그널은 운(Noise)으로 꿈틀댄 지표 변화와 경영 환경의 변화에서 비롯된 지표변화(Signal)를 구분할 수 있습니다. 또한, 전체 수준에서의 지표 변화뿐만 아니라 알 수 있는 모든 하위 수준에서 발생한 주목할 만한 지표 변화까지 알려드립니다. 글을 통해 자세히 살펴 보세요.
데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 구분하기
서로 다른 집단을 데이터로 정의하고 두 집단의 분류 규칙을 알아 보는 방법에 대해 알려 드려요. 두 집단을 구분하는 알고리즘 ‘의사결정나무 알고리즘‘에 대해서도 설명합니다. 또한, 하트카운트에서는 이 ‘의사결정나무 알고리즘’을 어떻게 기능으로 구현했는지 실습을 통해서 보여 드립니다.