1. 기본적인 데이터 종류 이해하기
2. [Revisited] 실무자를 위한 데이터의 기본 유형 설명(nominal, ordinal, numerical)
범주형 데이터 - 명목형(Norminal), 순서형(Ordinal)
우선 범주형(Categorical) 데이터(변수)는 크게 명목형(Nominal)과 순서형(Ordinal)으로 나눌 수 있습니다.
Nominal Data (명목형 데이터)
• nominal data는 name의 형용사인 nominal이란 수식어에서 알 수 있듯이 범주형 변수에 속한 개별값들(class라고 함; 예시로, 팀이라는 범주형 변수에 속한 청팀, 백팀, 홍팀 같은 개별 값들)에 내재적인 우위나 순서가 없이 서로 구분하는 용도만 있는 경우입니다.
• nominal data에 딱 두 개의 class(남자/여자 혹은 Yes/No)만 존재하는 경우 binary data(이분 자료)라고 부릅니다.
Ordinal Data (순서형 데이터)
• 범주형 변수(데이터)에 속한 개별 범주(class)들 간에 명백한 순서가 있는 경우 ordinal data라고 합니다.
• 예를 들자면 “평가 등급”이란 범주형 변수에 (5, 4, 3, 2, 1)이란 값들이 포함되어 있고, 해당 숫자가 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."를 뜻하는 것이라면 해당 변수는 숫자형 변수가 아니라 서로 다른 범주 간에 순서(우위)를 갖는 범주형 변수로 취급해야 합니다.
• 참고로, 숫자로 표현된 순서형 변수에 대해 평균을 계산하면 안 된다는 견해가 있습니다. 이건 매우 높다에 5를, 높다에 4를 할당할 때, 각각의 숫자(5, 4)에 (5000원, 4000원의 경우와 같이) 엄정한 수학적/과학적 의미와 차이가 있는 것이 아니기 때문입니다.
숫자형 데이터 - 이산형(discrete), 연속형(continuous)
숫자형(Numerical) 데이터(변수)는 크게 이산형(discrete)이나 연속형(continuous)으로 나뉩니다. 하지만, 실무 맥락에서 둘 간의 구분은 그닥 중요하지 않으니 참고 정도만 해주시면 되겠습니다.
Discrete Data(이산형 데이터)
측정된 변수값이 정수로 딱딱 떨어지는 경우(예, 나이(살): 20, 21, 22,… or 고객수(명): 520, 435,…)를 이산형 데이터라고 합니다.
Continuous Data(연속형 데이터)
연속된 무수히 많은 값들 중 하나의 값을 취할 수 있는 경우(예, 온도(도): 21.4, 25.7) 연속형이라고 합니다.
데이터 유형 분류 실습
HEARTCOUNT에서는 분석을 위한 최적의 데이터 유형을 자동으로 분류해 드립니다.
아래 영상에서 관련 내용을 참고해 주시고, 직접 따라해 보시려면 HEARTCOUNT 로그인 해주시면 됩니다.