home

실무자를 위한 데이터의 기본 유형 설명(nominal, ordinal, numerical)

본 블로그는 2015년에 작성된 블로그(’기본적인 데이터 종류 이해하기’)가 데이터 유형을 교과서적으로 엄격하게 분류했던 것을 보완하여, 현업들이 실무 맥락에서 데이터 유형을 보다 쉽게 이해할 수 있도록 수정한 글입니다.

  ’데이터의 기본 유형 배우기’ 시리즈

데이터 분석과 시각화의 맥락에서 중요한 데이터(변수) 유형은 숫자(Numerical)와 범주(Categorical) 이렇게 딱 두가지입니다. 데이터의 유형을 이해하는 것은 데이터 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는 일과 없는 일들이 결정되므로 중요합니다.

범주형 데이터 - 명목형(Norminal), 순서형(Ordinal)

우선 범주형(Categorical) 데이터(변수)는 크게 명목형(Nominal)과 순서형(Ordinal)으로 나눌 수 있습니다.
Nominal Data (명목형 데이터)
nominal data는 name의 형용사인 nominal이란 수식어에서 알 수 있듯이 범주형 변수에 속한 개별값들(class라고 함; 예시로, 팀이라는 범주형 변수에 속한 청팀, 백팀, 홍팀 같은 개별 값들)에 내재적인 우위나 순서가 없이 서로 구분하는 용도만 있는 경우입니다.
nominal data에 딱 두 개의 class(남자/여자 혹은 Yes/No)만 존재하는 경우 binary data(이분 자료)라고 부릅니다.
Ordinal Data (순서형 데이터)
범주형 변수(데이터)에 속한 개별 범주(class)들 간에 명백한 순서가 있는 경우 ordinal data라고 합니다.
예를 들자면 “평가 등급”이란 범주형 변수에 (5, 4, 3, 2, 1)이란 값들이 포함되어 있고, 해당 숫자가 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."를 뜻하는 것이라면 해당 변수는 숫자형 변수가 아니라 서로 다른 범주 간에 순서(우위)를 갖는 범주형 변수로 취급해야 합니다.
참고로, 숫자로 표현된 순서형 변수에 대해 평균을 계산하면 안 된다는 견해가 있습니다. 이건 매우 높다에 5를, 높다에 4를 할당할 때, 각각의 숫자(5, 4)에 (5000원, 4000원의 경우와 같이) 엄정한 수학적/과학적 의미와 차이가 있는 것이 아니기 때문입니다.

숫자형 데이터 - 이산형(discrete), 연속형(continuous)

숫자형(Numerical) 데이터(변수)는 크게 이산형(discrete)이나 연속형(continuous)으로 나뉩니다. 하지만, 실무 맥락에서 둘 간의 구분은 그닥 중요하지 않으니 참고 정도만 해주시면 되겠습니다.
Discrete Data(이산형 데이터)
측정된 변수값이 정수로 딱딱 떨어지는 경우(예, 나이(살): 20, 21, 22,… or 고객수(명): 520, 435,…)를 이산형 데이터라고 합니다.
Continuous Data(연속형 데이터)
연속된 무수히 많은 값들 중 하나의 값을 취할 수 있는 경우(예, 온도(도): 21.4, 25.7) 연속형이라고 합니다.
데이터 유형 분류 실습
HEARTCOUNT에서는 분석을 위한 최적의 데이터 유형을 자동으로 분류해 드립니다.
아래 영상에서 관련 내용을 참고해 주시고, 직접 따라해 보시려면 HEARTCOUNT 로그인 해주시면 됩니다.
참고 interval and ratio data
전통적 통계 교과서에서는 숫자형 변수를 구분하는 유형으로 interval과 ratio type을 함께 소개합니다. 실무 맥락에서는 크게 중요하지 않은 구분법이지만 참고하시라고 내용을 아래 정리하였습니다.
ratio data (비율 자료)
현재 시각이 13:30인데 내가 시계를 보고 13:00부터 계산해서 “30분” 기다렸네 할 때 “30분"은 ratio data이다.
ratio data의 경우 interval data와 다르게 절대적 원점(meaningful zero point)이 존재하며 interval data에서 00:00이라는 값은 (기다린 시간이) “0”초 라는 뜻이다.
나이, 돈, 몸무게와 같은 데이터(변수)가 ratio data로 다루어진다.
interval data (구간 자료)
데이터의 연속된 측정 구간 사이의 간격이 동일한 경우 interval data라고 부른다. (11:00와 11:05의 차이는 15:55과 16:00의 차이와 동일; 왜냐면, 매 분은 60초이니깐)
단, 절대적 원점(zero point)이 없다. 무슨 말이냐면 00:00이라는 값은 측정한 시간의 값이 없다는 게 아니라 그냥 자정에 시간을 측정했다는 뜻이다.
data type은 어떤 측정(수집) 방법을 택하느냐에 따라 바뀌기도 한다. 나이(age)를 예로 들자면 나이는 기본적으로 숫자형 변수이며 discrete이자 ratio 유형으로 분류할 수 있다. 하지만 우리가 나이를 연령대로 수집/가공한다면 (예, 21~25세, 26~30세, 31~35세), 나이는 연령대라는 순서형 범주형 변수가 될 수도 있다.
 하트카운트팀의 더 많은 아티클 보러가기
 하트카운트 사용해보기
 하트카운트 도입 상담하기
 하트카운트 뉴스레터 지난 호 보기 & 구독하기