AI 데이터 분석을 위해 꼭 알아야 할 데이터 기본기

AI 데이터 분석을 잘하는 방법

Chat GPT, Gemini 같이 명령을 잘 이해하고 수행하는 생성형 AI의 성능이 높아지고, 의도에 따라 과제를 수행하는 AI agent가 많이 생겨나면서 마법처럼 일을 대신 해주는 AI에 대한 환상과 기대가 높아지고 있습니다. 실제로 어느정도 완벽하게 할 수 있는 일들도 있죠. 그렇다면, 데이터 분석의 영역에서도 AI 데이터 분석은 AI만 잘하면 되는 걸까요?

A close up of a cell phone with icons on it — Photo by Saradasish Pradhan / Unsplash

AI로 쓸모있는 인사이트를 뽑아내려면 학습하고 분석할 '데이터'가 잘 구조화되어 있어야 하고, 그걸 잘 파악한 사용자가 던지는 '질문'이 명확해야 합니다. 결국 데이터 분석의 기본을 알아야 AI 활용을 통한 효능감도 느낄 수 있는 것이죠. 부사수가 업무 지시를 잘 이행하려면 사수가 그 일을 파악하고, 적합한 가이드라인을 주고, 피드백할 수 있어야 하는 것처럼 말입니다.

이 글에서는 데이터를 어떻게 파악하고, 구조화하고, 분석에 활용할 수 있는지 핵심 개념을 쉽게 설명합니다. 이번 글을 통해 내가 가진 데이터는 어떤 종류인지, 무엇을 할 수 있을지, 어떤 결과물을 기대하고 AI 데이터 분석을 시작할 것인지 힌트를 얻어보세요 :)

데이터 분석의 시작, 목적과 전체 흐름 이해하기

데이터 분석, 왜 하는 걸까요? Y를 X로 설명하기 위해서!

"그래서 데이터 분석을 왜 해야 하는데요?" 라고 물으신다면, 크게 두 가지 답변을 할 수 있습니다.

궁금한 현상(Y)을 데이터(X)로 더 잘 설명하거나 예측하기 위해.
예: 어떤 고객이 우리 제품을 더 많이 살까? [Y: 구매량, X: 고객 특성]
설명 변수(X)를 바꿔서 결과 변수(Y)를 개선하기 위해.
예: 어떤 프로모션을 해야 매출이 오를까? [Y: 매출액, X: 프로모션 종류]

엑셀, 데이터 시각화 도구, 통계, 머신러닝(ML) 같은 도구들이 다 이 두 가지 목표를 위해 존재합니다.

데이터 분석, 어떻게 시작해야 할까요?

보통 데이터는 [수집되어 → 어떤 상태인지 기술(묘사)되고 → 숨겨진 패턴이 발견된 후 → 미래를 예측하고 → 실제 행동(활용)]으로 이어지는 단계를 밟습니다. 이 과정에서 사용되는 주요 분석 기술은 다음과 같습니다.

기술묘사 분석 (Descriptive Analytics)
"그래서 뭐가 있는데?" 데이터의 현재 상태와 특징을 요약합니다. 엑셀 같은 툴로 가장 많이 하는 분석이며, 묘사 분석이라고도 합니다.
탐색적 데이터 분석 (EDA - Exploratory Data Analysis)
"어? 이건 왜 이렇지?" 데이터 구석구석을 뜯어보며 질문을 던지고 패턴을 찾아보는 과정입니다. 데이터 시각화와 가깝죠.
예측/추론 분석 (Predictive/Inferential Analytics)
"앞으로는 어떻게 될까?" 찾아낸 패턴으로 미래를 예측하거나, 전체를 추측합니다. 통계나 머신러닝이 쓰이는 단계입니다.

고급 기술이 가장 뛰어난 분석은 아닙니다. 어려운 기술을 쫓기보다는 지금 내 질문에 맞는 분석을 하는 게 중요합니다.

데이터에는 어떤 종류가 있나요?

정형 데이터 (Structured Data) VS 비정형 데이터 (Unstructured Data)

데이터를 이해하는 가장 기본적인 방법 중 하나는 구조화 여부로 나누는 것입니다. 표형식으로 깔끔하게 구성된 정형 데이터와, 형태가 정해지지 않은 비정형 데이터로 크게 구분할 수 있습니다.

구분	정형 데이터 (Structured Data)	비정형 데이터 (Unstructured Data)
형태	열(column)과 행(row)이 명확히 정의된 표 형식	고정된 형식 없이 자유로운 형태 (텍스트, 이미지, 음성 등)
예시	엑셀 시트, SQL 테이블, CRM 고객 목록	이메일 본문, 리뷰 텍스트, 콜센터 녹취록, 이미지, 영상
저장 방식	관계형 DB (Relational DB), CSV, 스프레드시트	파일 시스템, NoSQL, 클라우드 스토리지 등
분석 용이성	상대적으로 분석하기 쉬움 (통계, SQL, BI 도구 등 활용)	분석이 복잡함 (자연어 처리, 이미지 인식, 음성 인식 기술 필요)
적용 기술	SQL, 통계 분석, 시각화 도구	NLP, 컴퓨터 비전, 딥러닝 등 고급 분석 기술 필요

이번 글에서는 HEARTCOUNT와 같은 데이터 분석툴이 주로 분석 대상으로 하는 정형 데이터를 설명하고자 합니다. 이어지는 숫자형/범주형 데이터, 분석하기 좋은 데이터(Tidy Data), 변수(Variable)와 관측치(Observation) 같은 개념들도 주로 이 정형 데이터를 대상으로 한다는 점도 참고해주세요.

숫자형(Quantitative)과 범주형(Qualitative)

앞에서 우리가 "정형 데이터" (표처럼 구조화된 데이터) 를 소개했는데요. "숫자형/범주형 데이터"는 바로 그 정형 데이터의 각 열(변수)이 어떤 종류의 값(숫자, 문자 등)을 가지는지 설명하는 더 세부적인 '데이터 타입'입니다. 정형 데이터라는 큰 틀 안에서 속성을 자세히 보는 것이죠.

숫자형 데이터 (Quantitative Data):
- 이산형 (Discrete): 딱딱 떨어지는 값. 주로 정수입니다. (예: 구매한 상품 개수, 가족 구성원 수 )
- 연속형 (Continuous): 쭉 이어지는 값. 소수점도 가능합니다. (예: 키, 몸무게, 온도, 혈압 )
범주형 데이터 (Qualitative/Categorical Data):
- 명목형 (Nominal): 순서 없는 이름표. (예: 성별(남/여), 혈액형(A/B/O/AB), 좋아하는 색깔 )
- 순서형 (Ordinal): 의미 있는 순서나 등급이 있는 범주. (예: 만족도(상/중/하), 학점(A/B/C), 옷 사이즈(S/M/L) )

데이터 타입에 따라 써야 할 분석 방법이나 그래프 종류가 달라지기 때문에, 타입을 아는 것은 매우 중요합니다. 변수의 유형을 정확히 구분할 수 있다면, 데이터 분석에 필요한 적절한 요약 방법이나 비교 방식을 더 쉽게 선택할 수 있습니다.

분석하기 좋은 데이터 : 깔끔한 데이터(Tidy Data)의 조건

데이터가 아무리 많아도, 분석하기 어려운 상태라면 인사이트를 얻는 것은 불가능합니다. 분석이 용이한 데이터는 깔끔한 데이터(Tidy Dataset)라고 불리며, 핵심은 딱 두 가지만 기억하면 됩니다.

각 변수(Variable)는 열(Column)에
- 우리가 측정하거나 관찰하는 속성입니다.
- 분석의 대상(Y, Target, 종속변수)이 되거나, 설명을 위한 재료(X, Feature, 독립변수)가 되죠.
- 나이, 성별, 구매금액이 해당됩니다.
각 관측치(Observation)는 행(Row)에
- 개별 데이터 항목 하나하나를 의미합니다.
- 고객 한 명, 제품 하나, 거래 한 건 등이 해당되죠
- Record, Sample이라고도 부릅니다.

이런 구조여야 AI 데이터 분석 도구도 데이터를 잘 이해하고 분석을 수행할 수 있습니다.

원시 데이터 vs. 요약 데이터, 뭘 써야 할까요?

원시 데이터 (Raw Data)
- 가공 안 한 날것 그대로의 데이터입니다. 파고들수록 새로운 질문에 답을 찾을 수 있습니다.
요약 데이터 (Aggregated Data)
- 원본 데이터를 특정 기준으로 합치거나 평균 내서 요약한 데이터입니다.
- 특정 질문(예: 2001년 남녀 구매 비율은? )에 즉시 답할 수 있습니다.

요약 한번 요약되면 원래대로 돌아가기 어려워 다른 질문엔 답하기 어렵습니다. 따라서, 더 다채로운 분석결과를 얻기 위해서는 웬만하면 원시 데이터로 분석을 시작하는 것이 좋습니다.

EDA (탐색적 데이터 분석)으로 데이터 파악하기

EDA(탐색적 데이터 분석)는 앞서 말한 기술 분석과 탐색적 분석을 아우르는 개념으로, 데이터를 깊이 이해하기 위한 첫 번째이자 가장 중요한 과정입니다.

EDA 할 때 꼭 확인해야 할 것들:

데이터 구조 파악 (Inspect data structure): 어떤 정보들이 담겨있나?
데이터 품질 점검 (Data quality): 빈 값이나 이상한 값은 없나?
핵심 지표 요약 (Summarize): 평균은 어떻고, 값들은 주로 어디에 몰려있나?
시각화로 패턴 찾기 (Visualize data): 그래프로 그려보니 뭔가 보이는 게 있나?
가설 세우기 (Hypothesis generation): "혹시 이런 거 아닐까?" 하고 질문 만들기!

"어, 이거 완전 노가다 아니야?" 싶을 정도로 손이 많이 가는 단계입니다. 이때, HEARTCOUNT와 같은 AI 데이터 분석 도구가 이러한 EDA 과정을 자동화하는데 많은 도움이 됩니다.

데이터 묘사하기 (Descriptive Data Analysis), 3가지 관점

EDA의 한 축인 데이터 묘사는, 있는 그대로 데이터를 설명하는 방법이에요. 크게 3가지 관점으로 볼 수 있습니다.

요약 (Description)
1. 변수 하나의 대표값(평균, 중앙값 등)이나 값들이 퍼져있는 모양(분포)은 어떤지 봅니다.
2. "우리 고객 평균 연령은 35세이고, 30대가 제일 많네!"와 같은 식으로요.
비교 (Comparison)
1. 그룹(X)별로 값(Y)들이 어떻게 다른지 비교합니다.
2. "남성 고객보다 여성 고객의 평균 구매액이 더 높네?" 처럼요.
관계 (Relationship)
1. 변수(Y)가 변할 때, 다른 변수(X)는 어떻게 함께 변하는지 관계를 파악합니다.
2. "광고비를 늘렸더니(X) 방문자 수(Y)도 늘었네?" 같은 걸 보는 거죠.

Feature와 Feature Engineering

Feature (피처, 특성) : 우리가 궁금해하는 결과(Y, Target)를 설명하거나 예측하는 데 쓰이는 입력 변수(X)

좋은 Feature를 찾는 게 분석의 반이라고 해도 과언이 닙니다. 과일 분류 그림처럼, 사과와 오렌지를 씨앗 개수나 익은 정도로 구분하는 것보다 색깔과 무게로 구분하는 게 훨씬 낫겠죠?)

Feature Engineering (피처 엔지니어링, 특성 공학) : 기존 변수들을 그냥 쓰지 않고, 쪼개거나 합치거나 계산해서 더 강력한 새 Feature를 만들어내는 모든 과정

예를 들어 당뇨병 위험도를 예측할 때, 단순히 키와 몸무게를 쓰는 것보다 이 둘을 조합한 BMI(체질량지수, Quetelet Index)를 만들면 예측력이 훨씬 좋아질 수 있습니다.

이제 직접 데이터 분석을 시작해보세요

오늘 살펴본 개념들을 잘 기억해두시면, 앞으로 어떤 데이터를 만나든 당황하지 않고 차근차근 탐색해나갈 수 있을 것입니다 :) AI에게 일을 시킬 때도 훨씬 더 구체적인 요구를 할 수 있고요.

"이거 내 데이터로 한번 돌려보고 싶은데?" 하는 생각이 들었다면 HEARTCOUNT에서 여러분의 데이터를 가지고 오늘 배운 데이터 탐색을 시작해보세요. 실제로 해보면 "아, 이런 느낌이구나!" 하고 딱 와닿을 거에요.

💖

무료로 시작하기
공부한 내용을 실습해보고 싶다면 HEARTCOUNT에 접속 하세요. HEARTCOUNT는 개인, 기업 등 자신의 사용 용도에 맞게 사용할 수 있는 데이터 시각화/AI 분석 도구 입니다. 무료로 모든 기능을 사용해볼 수 있어요.

AI 데이터 분석을 위해 꼭 알아야 할 데이터 기본기

AI 데이터 분석을 잘하는 방법