기본적인 데이터 종류 이해하기

(그림 인용: http://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/)

본 블로그는 2015년에 작성된 글입니다. 관련한 최신 버전의 글은 여기에서 확인해 주세요.

’데이터의 기본 유형 배우기’ 시리즈

기본적인 데이터 종류 이해하기

[Revisited] 실무자를 위한 데이터의 기본 유형 설명(nominal, ordinal, numerical) 

좋은 분석은 데이터의 유형과 성격을 이해하는 것에서부터 시작

많은 분들이 간과하실 수 있지만, 데이터의 유형과 유형의 성격을 정확히 이해하는 것은 최초 데이터 수집 시 어떤 유형으로 데이터를 수집하는 게 적절할지 결정하는 일에서부터 이후 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는/없는 일들이 결정되므로 매우 중요하다고 할 수 있습니다.

데이터의 기본 유형 : Nominal, Ordinal, Interval, Ratio

1. nominal data (명목 자료)

nominal data는 nominal(이름과 관련한)이란 수식어에서 알 수 있듯이 여러 categories(예, 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 수 있을 때 사용됩니다.

nominal data는 순서를 매길 수 없고 그냥 개수를 세는 것만 가능합니다.

평균을 계산하는 것이 의미 없고 (백팀과 홍팀의 평균은 연분홍팀?) percent로는 표현해도 됩니다.

(청팀: 33%, 백팀 33%, 홍팀 34%)

특별히, nominal data가 두 개의 범주 중 하나에 속하는 경우 (남자 vs. 여자) dichotomous data(이분 자료)라고 부릅니다.nominal data를 categorical data (범주형 자료)라 부르기도 합니다.

2. ordinal data (순서 자료)

데이터가 속하는 category들에 순서가 있는 경우 ordinal data라고 합니다. (순서가 있는 명목 자료)

예를 들면, 청팀이 이길 가능성에 대해 survey를 하는 경우 그 답변을 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."로 디자인할 수 있습니다.

nominal data와 마찬가지로 counting을 하고 percent로 표현해도 무방합니다. (매우 높다: 33%, 높다: 19%…) 단, 평균(위 예에서 청팀 이길 확률에 대한 답변 평균이 3.8)에 대해서는 신중해야 합니다.

ordinal data에 대해 평균을 계산해서는 안 된다는 사람들이 있는데, 이건 ‘매우 높다’에 5를, ‘높다’에 4를 할당한 것처럼 그 각각의 (임의의) 숫자에 엄정한 수학적/과학적 의미가 있는 것이 아니기 때문이죠.

(하지만, 사실 범주에 할당된 수와 순서별로 정렬된 범주에 할당된 수들의 차이값이 말이 되고 납득이 되는 경우 못 할 것도 없습니다. 신중하게 결정하는 것이 중요할 것 같습니다.)

3. interval data (구간 자료)

시간을 ratio data(아래 참고)라고 보는 사람이 있는데, 기본적으로 하루 중 특정 시점을 나타내는 시간은 interval data입니다. 데이터의 연속된 측정 구간 사이의 간격이 동일한 경우 interval data라고 부릅니다. (11:00와 11:05의 차이는 15:55과 16:00의 차이와 동일; 왜냐면, 매 분은 60초이니깐)

interval data는 numeric value를 가지므로 다양한 연산을 수행해도 됩니다. 단, 절대적 원점(zero point)이 없습니다. 무슨 말이냐면 00:00이라는 자료의 값이 측정한 시간의 값이 없다는 게 아니라 그냥 자정에 시간을 측정했다는 뜻입니다.

4. ratio data (비율 자료)

현재 시각이 13:30인데 내가 시계를 보고 13:00부터 계산해서 “30분” 기다렸네 할 때 “30분"이 ratio data입니다. 이해가 되시나요?

ratio data의 경우 interval data와 다르게 절대적 원점(meaningful zero point)이 존재하며 interval data에서 00:00이라는 값은 (기다린 시간이) “빵”초 라는 뜻입니다.

나이, 돈, 몸무게 이런게 주로 ratio data로 다루어 집니다.

5. discrete(이산형) vs. continuous(연속형)

interval이나 ratio 자료는 이산형(discrete)이나 연속형(continuous) 둘 중의 하나의 속성을 갖게 됩니다.

측정값이 정수로 딱딱 떨어지는 경우 이산형이고 연속된 무수히 많은 값 중 하나를 가질 수 있는 경우 연속형이 됩니다. 연속형 데이터는 실제 표현될 때 적당히 반올림 되어 표현됩니다.(몸무게: 72.5 kg) 현실에서 측정/이해하고자 하는 변수는 종종 하나 이상의 data type에 속하게 되며 변수의 data type은 어떤 측정(수집) 방법을 택하느냐에 따라 결정됩니다.

나이를 예로 들자면 나이(본질적으로 ratio data)는 ratio data로 수집될 수도 있지만 ordinal data로 수집될 수도 있습니다. (나이가 속한 그룹을 선택하는 방식으로 데이터를 수집한 경우, 21~25, 26~30, 31~35) 반면, nominal이나 ordinal data를 - 둘 다 category 유형 데이터 - interval이나 ratio data로 수집할 수는 없습니다. (청팀, 백팀, 홍팀으로 분류되는 데이터를 interval/ratio data로 수집할 수 없음)

보다 보편적으로 이야기하자면 데이터 측정은 주어진 데이터의 본질적 속성보다 더 성기고/낮은 수준으로 내려갈 (interval/ratio를 nominal/ordinal로 측정) 수 는 있어도 보다 더 정교한/높은 수준으로 올라갈 (nominal/ordinal을 interval/ratio로 측정) 수는 없습니다. 위에 이야기한 "내려갈 수는 있어도 올라갈 수 없다"는 법칙은 비단 데이터 수집뿐만 아니라 분석이나 시각화에도 적용됩니다. (예를 들어 ratio 유형으로 수집할 수 있는 데이터를 ordinal 유형으로 수집하게 되면 나중에 평균을 계산한다든지 기타 보다 정교한 분석을 수행하기 어렵고 표현할 수 있는 방식 역시 나이 그룹별 히스토그램 정도로 제한되게 되는..)

하트카운트팀의 더 많은 아티클 보러가기

하트카운트 사용해보기

하트카운트 도입 상담하기

하트카운트 뉴스레터 지난 호 보기 & 구독하기

실무자들을 위한 데이터 분석/시각화 커뮤니티 가입하기