[무료 강의] EDA 101 (3): 평균의 함정, 시각화 기본 문법, 상관 관계 분석

[무료 강의] EDA 101 (3): 평균의 함정, 시각화 기본 문법, 상관 관계 분석

평균값으로만 데이터를 분석하면 안 된다는 사실, 알고 계셨나요? 평균값의 왜곡에서 벗어나, 더 꼼꼼하고 다채롭게 데이터를 탐색하는 방법에 대해 알아 보세요.

목차

📌 강의 목차

00:00 평균으로 분석하는 것의 문제점

08:30 차원의 저주

09:53 데이터 시각화의 기초 (Chart Type별 활용 방법 및 기본 문법)

17:14 데이터 스토리텔링

19:39 목적에 맞는 데이터 시각화

20:57 상관관계와 산점도(Correlation and Scatter Plot)

🗒️ 요약 노트

평균으로 분석하는 게 뭐가 문제일까?

The Problems with Average: Not Robust!

위 문장에서 ‘로버스트(robust)하다’가 어떤 의미인지 아시나요?

  • 통계학에서 로버스트하다는 것은 이상치/에러값(outlier)으로부터 영향을 크게 받지 않는다는 것을 의미합니다.
  • 평균은 outlier에 민감하므로 not robust로 이야기할 수 있습니다.
  • 따라서 평균에만 집중하게 되면 개별 데이터의 특수성이 평범함에 묻힐 수 있으며 이상치에 따라 평균값이 변동될 수 있습니다.
  • 반면에 중앙값은 outlier(이상치)에 휘둘리지 않습니다.

Simpson’s Paradox(심슨의 역설); 제한된/익숙한 관점의 위험성

평균이나 비율과 같은 통계 수치가 하위그룹으로 쪼개졌을 때 역전되는 현상을 말합니다.

  • 다양한 인사이트를 위해, 새로운 관점/차원을 추가하여 데이터를 쪼개는 것이 중요합니다.
  • 새로운 관점이란, 동일한 속성을 가진 집단을 정의하고 하위그룹을 생성하는 것 등을 말합니다.

X와 Y의 상관 정도(Why)를 알고 싶을 때, Scatterplot(산점도)

개별 레코드를 2차원의 X, Y좌표에 흩뿌려서 표현하는 것을 Scatterplot(산점도)라고 합니다.

  • 어느 위치에 레코드가 많이 모여 있는지 전체적인 분포를 참고할 수도 있으며, 보통 두 개의 숫자형 변수가 한 방향으로 밀접하게 움직이고 있는지 확인하는 데에 쓰입니다.
  • 1차 함수와 같이 레코드들이 밀접하게 모여 있을수록, 상승 또는 하강하는 직선을 그리고 있을수록 X와 Y가 서로에게 미치는 영향이 크다고 판단합니다.
  • 이 상관 정도를 수치화한 것을 상관 계수(r)이라고 합니다. 음의 상관관계(하강하는 직선)는 -1, 양의 상관관계(+1)는 1, 서로에게 영향을 주지 않는 관계는 0 ⇒ Y(output)에 어떤 것이 영향을 주었는지 알고 싶을 때, 의심되는 독립변수(input)들을 X에 두고 각각의 상관 정도를 확인할 수 있습니다.
두 변수를 도표에 나타낼 때에는 흔히 산점도를 사용하며, 변수 둘 이상을 도표 하나에 나타낼 땐 버블 차트, 산점도 매트릭스, 상관곡선이 적합하다. 마지막으로 변수가 많은 고차원 데이터셋을 다룰 때는 주성분 분석 같은 기법으로 차원을 축소하는 것이 좋다. (출처: 클라우스 윌케. 『데이터 시각화 교과서』. 권혜정 옮김. 서울: 책만, 2020.)

📖 강의 교재

💡 관련 아티클

EDA(탐험 분석)에 대하여
EDA 실습에 사용할 Dataset 설명 이 글에 사용한 데이터는 Hans Rosling이 데이터 시각화를 통해 사람들이 기본적인 사실관계에 대해 얼마나 무지한지를 드러내는데 사용했던 데이터셋으로 아래의 변수들로 구성되어 있다. • Country: 국가명 • Year: 기대수명 등 각종 통계치가 집계된 년도 • Life Expectancy: 기대 수명 • Children per Woman: 여성 일인당 출산아동수 • Population: 인구 • Continent: 국가가
집계 말고 개별 레코드 수준 분석의 장점
때로는 대시보드만으로는 부족하다 전통적인 대시보드 레벨의 데이터 시각화 및 분석은 시간의 흐름에 따라 각 회사의 상황에 맞추어 미리 정의된 지표들의 추이를 확인하기 위한 목적성을 지니고 있다. 예를 들어 제품별 재고율의 월별 추이, 팀별 평균 판매량 비교 등이다. 추이의 변화를 확인하는 것만으로도 때로는 유의미한 데이터 분석이 될 수 있다. “너희 팀
분포 : 개별 레코드 수준의 시각화를 통해 불확실성을 말해야 할 때
집계값(평균)이 아닌, 개별 레코드 수준에서 분석해야 하는 이유 아쉽게도 우리는 개별 레코드 수준의 시각화에 익숙하지 못하다. 바차트, 라인차트 등 데이터를 평균이나 총합으로 요약, 집계하여 보여주는 대시보드 차트에 너무 친숙해진 탓이다. 평균적 이해를 넘어서 평균, 합계 등 집계값으로만 분석/시각화하는 것이 위험한 이유는 이상치(outlier) 등 데이터의 분포 모양과

🗣 후기 이벤트

학습 콘텐츠가 도움이 되셨나요? 블로그에 후기를 작성해보세요.

블로그에 하트카운트 학습 콘텐츠와 관련된 글을 작성 후 아래 폼을 제출해주시면, 추첨하여 네이버페이 5,000원 쿠폰을 전달드립니다. 내가 공부한 내용을 기록하고, 다른 사람들에게 추천해보세요.

리뷰 이벤트 참여하기