📌 강의 목차
00:00 평균으로 분석하는 것의 문제점
08:30 차원의 저주
09:53 데이터 시각화의 기초 (Chart Type별 활용 방법 및 기본 문법)
17:14 데이터 스토리텔링
19:39 목적에 맞는 데이터 시각화
20:57 상관관계와 산점도(Correlation and Scatter Plot)
🗒️ 요약 노트
평균으로 분석하는 게 뭐가 문제일까?
The Problems with Average: Not Robust!
위 문장에서 ‘로버스트(robust)하다’가 어떤 의미인지 아시나요?
- 통계학에서 로버스트하다는 것은 이상치/에러값(outlier)으로부터 영향을 크게 받지 않는다는 것을 의미합니다.
- 평균은 outlier에 민감하므로 not robust로 이야기할 수 있습니다.
- 따라서 평균에만 집중하게 되면 개별 데이터의 특수성이 평범함에 묻힐 수 있으며 이상치에 따라 평균값이 변동될 수 있습니다.
- 반면에 중앙값은 outlier(이상치)에 휘둘리지 않습니다.
Simpson’s Paradox(심슨의 역설); 제한된/익숙한 관점의 위험성
평균이나 비율과 같은 통계 수치가 하위그룹으로 쪼개졌을 때 역전되는 현상을 말합니다.
- 다양한 인사이트를 위해, 새로운 관점/차원을 추가하여 데이터를 쪼개는 것이 중요합니다.
- 새로운 관점이란, 동일한 속성을 가진 집단을 정의하고 하위그룹을 생성하는 것 등을 말합니다.
X와 Y의 상관 정도(Why)를 알고 싶을 때, Scatterplot(산점도)
개별 레코드를 2차원의 X, Y좌표에 흩뿌려서 표현하는 것을 Scatterplot(산점도)라고 합니다.
- 어느 위치에 레코드가 많이 모여 있는지 전체적인 분포를 참고할 수도 있으며, 보통 두 개의 숫자형 변수가 한 방향으로 밀접하게 움직이고 있는지 확인하는 데에 쓰입니다.
- 1차 함수와 같이 레코드들이 밀접하게 모여 있을수록, 상승 또는 하강하는 직선을 그리고 있을수록 X와 Y가 서로에게 미치는 영향이 크다고 판단합니다.
- 이 상관 정도를 수치화한 것을 상관 계수(r)이라고 합니다. 음의 상관관계(하강하는 직선)는 -1, 양의 상관관계(+1)는 1, 서로에게 영향을 주지 않는 관계는 0 ⇒ Y(output)에 어떤 것이 영향을 주었는지 알고 싶을 때, 의심되는 독립변수(input)들을 X에 두고 각각의 상관 정도를 확인할 수 있습니다.
두 변수를 도표에 나타낼 때에는 흔히 산점도를 사용하며, 변수 둘 이상을 도표 하나에 나타낼 땐 버블 차트, 산점도 매트릭스, 상관곡선이 적합하다. 마지막으로 변수가 많은 고차원 데이터셋을 다룰 때는 주성분 분석 같은 기법으로 차원을 축소하는 것이 좋다. (출처: 클라우스 윌케. 『데이터 시각화 교과서』. 권혜정 옮김. 서울: 책만, 2020.)
📖 강의 교재
💡 관련 아티클
🗣 후기 이벤트
학습 콘텐츠가 도움이 되셨나요? 블로그에 후기를 작성해보세요.
블로그에 하트카운트 학습 콘텐츠와 관련된 글을 작성 후 아래 폼을 제출해주시면, 추첨하여 네이버페이 5,000원 쿠폰을 전달드립니다. 내가 공부한 내용을 기록하고, 다른 사람들에게 추천해보세요.