범주형 변수(성별, 사업부, 직급, 채용경로, 고객군, 판매채널 등)는 우리가 대상을 바라보는 익숙한 관점의 또 다른 이름입니다. 하나의 범주를 구성하는 개별 범주값(집단)들 간의 상대적 차이를 한 눈에 비교하기 위하여HeartCount의 Smart Ranking 기능이 태어났습니다.
평균(Average)의 탄생: 본질의 추구; 이상적인 평균
결정론적 세계관(Determinism)은 기본적으로 세상에 질서와 완벽함(or 이상적인 존재)이 존재한다는 믿음에 그 기반을 두고 있습니다. 플라톤이 동굴의 비유(cave allegory)에서 이야기한 것처럼 이데아(완벽한 존재)가 존재하고 우리가 현상계에서 관찰하는 것은 이상적인 존재의 그림자에 불과하다는 것이죠.
통계학의 역사에서 평균의 개념은 이런 이상적인 존재를 이해하고 설명하기 위해 탄생했습니다. 가장 이상적인 물방개의 무게와 크기를 설명하기 평균의 개념이 필요했고 평균에서 크게 벗어나면 새로운 종(Species)으로 분류한 것처럼요.
[Species(종; 種): An Ideal Type -> Idealized Mean]
분산(Variation)의 탄생: 다윈의 진화론
그러다, 다윈의 진화론을 통해 개별 종 내에서의 차이(Variation)가 바람직하지 못한 무시할 현상이 아니라 그 차이를 통해 의미있는 변화(진화)가 발생하게 된다는 생각이 싹트게 되었습니다. 동일한 집단 내에서의 차이가 관찰하고 더 깊이 이해해야할 현상으로 주목받기 시작한 것입니다.
[진화론: 평균에서 분산으로]
범주 간 차이 vs 범주 내 차이
범주는 우리가 세상이나 대상을 바라보는 익숙하고 효율적인 관점입니다. 학력(학사 or 석사)을 파악하고, 고향(대전 or 부산)과 사는 동네(강북 or 강남)를 알아내면서 확인한 개별 범주값에 따라오는 평균적인 모습(이데아)들의 조합을 통해 대상을 Profiling합니다.
개별 범주(집단) 내에서의 차이(Variation)를 이해하는 것(같은 대전 사람이라고 모두 말을 느리게 하는 건 아니다)의 중요성이 강조되는 것은 다윈의 덕으로 볼 수 있습니다. 하지만, 범주(집단) 간 차이를 제대로 이해하는 일은 범주 내 차이를 이해하는 일만큼 중요한 일입니다.
특정 집단에 대해 형성된 우리 관념 속의 이데아를 데이터가 보여주는 모습과 비교하여 새로운 영감(Inspiration)을 얻을 수도 있겠습니다.
Analysis in Heartcount
Smart Ranking: 개별 범주(집단) 간 차이를 한 눈에 비교
하트카운트 실습을 통해 서로 다른 범주들 간의 차이를 한 눈에 확인해보겠습니다.
HeartCount의 Smart Raking은 엑셀에 담긴 모든 관측값(숫자형 변수)들을 한 눈에 보여주고 상대적 차이에 집중할 수 있도록 개별 차트에 담긴 정보량을 최소화한 것이 특징입니다.
아래는 매출 데이터인데 [Paper] 제품이 다른 제품과 비교해서 어떻게 다른지 한 눈에 확인가능하네요.
(바의 크기는 절대값의 반영이 아니라 해당 범주값 간의 상대적 차이를 나타냅니다.)
•
종이류가 판매 건수는 제일 높고, 할인률은 상대적으로 낮은 편이고
•
주문 수량은 거의 꼴지이고, 이익도 하위권 고만고만한 애들하고 섞여 있음 등등
[Smart Ranking_ 매출 데이터: 제품 카테고리별로 어떤 차이가 있는지 한 눈에 보기]
마찬가지로, 아래는 서베이 데이터인데 음주 습관[Alchohol]에 따른 다른 측정값(서베이 문항에 대한 답변)들이 어떻게 다른지 한 눈에 비교할 수 있습니다.
개별 범주값들의 숫자가 많은 경우(사업부가 80개 정도 되는 경우) 우측 상단에 검색기능을 이용하여 강조하고자 하는 범주값을 선택할 수 있습니다. 또한, 개별 창 선택시 우측 상단에 나타나는 Smart Link를 클릭하면, 개별 창에 담긴 요약 내용이 스마트 플롯의 시각화 화면으로 나타나며 개별 레코드 수준에서 자세히 살펴볼 수 있습니다.
[Smart Ranking_ 서베이 데이터: 음주 습관별로 답변에 어떤 차이가 있는지 한 눈에 보기]