1. 기본적인 데이터 종류 이해하기
2. [Revisited] 실무자를 위한 데이터의 기본 유형 설명(nominal, ordinal, numerical)
범주형 데이터 - 명목형(Norminal), 순서형(Ordinal)
우선 범주형(Categorical) 데이터(변수)는 크게 명목형(Nominal)과 순서형(Ordinal)으로 나눌 수 있습니다.
Nominal Data (명목형 데이터)
• nominal data는 name의 형용사인 nominal이란 수식어에서 알 수 있듯이 범주형 변수에 속한 개별값들(class라고 함; 예시로, 팀이라는 범주형 변수에 속한 청팀, 백팀, 홍팀 같은 개별 값들)에 내재적인 우위나 순서가 없이 서로 구분하는 용도만 있는 경우입니다.
• nominal data에 딱 두 개의 class(남자/여자 혹은 Yes/No)만 존재하는 경우 binary data(이분 자료)라고 부릅니다.
Ordinal Data (순서형 데이터)
• 범주형 변수(데이터)에 속한 개별 범주(class)들 간에 명백한 순서가 있는 경우 ordinal data라고 합니다.
• 예를 들자면 “평가 등급”이란 범주형 변수에 (5, 4, 3, 2, 1)이란 값들이 포함되어 있고, 해당 숫자가 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."를 뜻하는 것이라면 해당 변수는 숫자형 변수가 아니라 서로 다른 범주 간에 순서(우위)를 갖는 범주형 변수로 취급해야 합니다.
• 참고로, 숫자로 표현된 순서형 변수에 대해 평균을 계산하면 안 된다는 견해가 있습니다. 이건 매우 높다에 5를, 높다에 4를 할당할 때, 각각의 숫자(5, 4)에 (5000원, 4000원의 경우와 같이) 엄정한 수학적/과학적 의미와 차이가 있는 것이 아니기 때문입니다.
숫자형 데이터 - 이산형(discrete), 연속형(continuous)
숫자형(Numerical) 데이터(변수)는 크게 이산형(discrete)이나 연속형(continuous)으로 나뉩니다. 하지만, 실무 맥락에서 둘 간의 구분은 그닥 중요하지 않으니 참고 정도만 해주시면 되겠습니다.
Discrete Data(이산형 데이터)
측정된 변수값이 정수로 딱딱 떨어지는 경우(예, 나이(살): 20, 21, 22,… or 고객수(명): 520, 435,…)를 이산형 데이터라고 합니다.
Continuous Data(연속형 데이터)
연속된 무수히 많은 값들 중 하나의 값을 취할 수 있는 경우(예, 온도(도): 21.4, 25.7) 연속형이라고 합니다.
데이터 유형 분류 실습
HEARTCOUNT에서는 분석을 위한 최적의 데이터 유형을 자동으로 분류해 드립니다.
아래 영상에서 관련 내용을 참고해 주시고, 직접 따라해 보시려면 HEARTCOUNT 로그인 해주시면 됩니다.
전통적 통계 교과서에서는 숫자형 변수를 구분하는 유형으로 interval과 ratio type을 함께 소개합니다. 실무 맥락에서는 크게 중요하지 않은 구분법이지만 참고하시라고 내용을 아래 정리하였습니다.
ratio data (비율 자료)
• 현재 시각이 13:30인데 내가 시계를 보고 13:00부터 계산해서 “30분” 기다렸네 할 때 “30분"은 ratio data이다.
• ratio data의 경우 interval data와 다르게 절대적 원점(meaningful zero point)이 존재하며 interval data에서 00:00이라는 값은 (기다린 시간이) “0”초 라는 뜻이다.
• 나이, 돈, 몸무게와 같은 데이터(변수)가 ratio data로 다루어진다.
interval data (구간 자료)
• 데이터의 연속된 측정 구간 사이의 간격이 동일한 경우 interval data라고 부른다. (11:00와 11:05의 차이는 15:55과 16:00의 차이와 동일; 왜냐면, 매 분은 60초이니깐)
• 단, 절대적 원점(zero point)이 없다. 무슨 말이냐면 00:00이라는 값은 측정한 시간의 값이 없다는 게 아니라 그냥 자정에 시간을 측정했다는 뜻이다.
data type은 어떤 측정(수집) 방법을 택하느냐에 따라 바뀌기도 한다. 나이(age)를 예로 들자면 나이는 기본적으로 숫자형 변수이며 discrete이자 ratio 유형으로 분류할 수 있다. 하지만 우리가 나이를 연령대로 수집/가공한다면 (예, 21~25세, 26~30세, 31~35세), 나이는 연령대라는 순서형 범주형 변수가 될 수도 있다.
후기 이벤트
학습 콘텐츠가 도움이 되셨나요? 블로그에 후기를 작성해보세요.
블로그에 학습 콘텐츠와 관련된 글을 작성 후 아래 폼을 제출해주시면, 추첨하여 네이버페이 5,000원 쿠폰을 전달드립니다. 내가 공부한 내용을 기록하고, 다른 사람들에게 추천해보세요.
>> 리뷰 이벤트 참여하기