데이터로 집단 간 차이를 논하고 싶다면

영리를 목적으로 세워진 기업 내에서 데이터로 집단 간 차이를 논하는 경우, 그 대상은 일하는 사람(직원)이거나 소비하는 사람(고객) 둘 중 하나이기 쉽습니다.

직원의 경우에는 바람직한 행동을 보인 집단과 그렇지 않은 집단 간의 차이를 a. 개인 수준에서 발견하여 선발, 배치 등에 활용하고, 그 차이를 b. 환경적, 구조적 특성으로 설명할 수 있다면, 해당 발견을 조직 문화를 바꾸는 일에 활용할 수 있습니다. 이 경우, 차이를 설명할 수 있는 특성과 행동(결과) 사이에 인과성에 대한 믿음이 필요합니다. 왜냐면, 그 원인(특성 차이)에 개입해서 결과(조직 수준에서의 바람직한 행동의 총량)를 개선하는 것이 목적이기 때문입니다.

고객의 경우, “원인 → 결과”와 같은 인과적 패턴의 발견보다는 바람직한 행동을 보이는 집단을 알고 있는 정보로 기술하는 것이 중요합니다. 예를 들어 우리 회사 웹사이트를 통해 회원 가입을 한 고객들의 그렇지 않은 고객들과 대비되는 특성을 “유입경로=Owned Media의 Tech Blog & 연령대=2~30대인 경우 전환률이 15%로 전체 평균 전환률 3%보다 높았다”와 같이 정량적으로 설명할 수 있다며, 해당 패턴은 그 인과적 사슬에 대한 딱부러지는 설명 없이도 비용 효과적으로 전환률을 높이는 일에 유용하게 쓰일 수 있기 때문입니다.

본 블로그에서는 데이터로 A. 집단 간 특성 차이를 설명하고, B. 특성 차이로 특정 집단을 구분하는 방법에 대해 살펴보겠습니다.

보다 자세한 이론적 설명과 실습은 웨비나 영상을 참고해보세요.

A. 집단 간 특성 차이

집단이 미리 구분되어 있을 때 집단들 간 특성 차이를 관찰하고 “집단 간 보편적인 차이가 있다고 볼 수 있다.”라고 주장하는 일과 특정 행동을 보인 집단(예, 월평균 백만원 이상 구매한 고객)의 구분되는 특성(예, 나이, 성별, 결혼유무 등)을 정의하는 일은 그 분석 목적과 분석 방법이 다른 작업입니다.

“집단 간 특성 차이”와 관련된 질문의 경우, 통상적으로 이미 잘 구분된 범주를 그 대상으로 하는 경우가 많습니다. 예를 들면, “개발 직군과 경영 관리 직군 간 직원 만족도에 차이가 있나?”, “연령대 별로 전환률에 차이가 있나?” 등 우리가 세상이나 사람(직원, 고객)을 구획하는 익숙한 범주(직군, 연령대)들 간 행동(전활률)이나 인식(만족도)의 유이미한 차이가 있나를 살펴보는 일이 분석의 주된 목적입니다.

집단 간 특성 차이에 대해 이야기하기 위해서는 집단 사이에서 나타나는 특성 차이가 우발적인 현상이 아니라 일반화가 가능한 유의미한 현상인 것을 증명하는 방법이 필요합니다.

그 방법을 통계학에서 "검정(test)"이라고 하는데, 제한된 샘플 데이터를 가지고 모집단에 대한 가설을 검증하는 작업입니다. 본 블로그에서는 다양한 검정 방법들을 모두 다루지는 않고 Student t-test가 세상에 나오게 된 역사에 대해서만 간단히 소개하려고 합니다.

아래 내용은 “Introducing Statistics: A Graphic Guide”의 관련 내용을 요약, 번역했음을 밝힙니다.

기네스 양조장과 최초의 통계 검정

•

20세기 초, 기네스 양조장에서 활동하던 통계학자이자 화학자 윌리엄 씰리 고셋(William Sealy Gosset)은 산업계 최초로 통계적 품질 관리 검정 방법을 발명한 사람입니다. (고셋은 자신의 이름으로 출판하는 것을 금지하는 사규 때문에 논문 출판 시 "Student"라는 가명을 사용해야 했답니다.)

•

고셋은 기네스에 입사하고 맥주 원료와 맥주 품질 간의 다양한 화학 실험 데이터의 존재를 확인하고, 이들 데이터가 보리와 홉 같은 원료의 품질과 완제품의 품질 사이의 관계를 설명해줄 수 있을지 몹시 궁금했습니다.

•

고셋이 데이터 분석을 기획할 때 마주한 두가지 어려움은 측정한 수치들의 변동성이 너무 높다는 것과 데이터(관측값)가 적다는 것이었습니다.

•

회사(기네스)로서는 좋은 맥주 품질을 담보하기 위해 집중하고 개선할 (원료의) 차이와 무시해도 좋을 차이를 이해하는 것이 급선무였고, 고셋은 1905년 7월 12일 당대 통계학의 대가인 피어슨과 만나기로 합니다.

Small Samples vs. Large Samples

•

고셋은 표본 크기가 작은 것이 고민이라고 피어슨에게 토로했습니다. 피어슨의 통계 검정 방법은 작은 표본 크기에 적용할 때 편향된 결과를 초래할 수 있었기 때문입니다. 결국, 고셋은 천문학자들의 방법과 피어슨의 통계 방법을 결합하여 새로운 통계 도구를 만들게 됩니다.

•

고셋은 인접한 두개의 경작지에서 재배된 서로 다른 보리 품종 중 어떤 것이 더 나은 품질의 맥주를 생산하는지 연구하였습니다. 고셋은 작은 샘플 데이터를 가지고 표본 평균과 모집단 평균 사이에 유의한 차이가 있는지 결정하기 위해 z-ratio(또는 z-test)를 도입하였습니다. 

Student's t-test

•

고셋 본인이 고안해낸 z-ratio로 보리 품종에 따른 맥주 품질을 분석했을 때, 기네스를 위한 최상의 보리는 아처(Archer) 품종임을 발견하게 됩니다. 기네스는 덴마크산 아처 보리 씨앗을 파트너 농부님들에게 배포하여 목넘김 좋은 맥주를 생산할 수 있게 되었지요.

•

고셋의 새로운 통계 검정 방법 덕분에, 복잡한 양조 과정의 다양한 단계에서 품질에 영향을 미치는 많은 요인의 상대적 중요성을 정밀하게 결정할 수 있게 되었고 z-ratio는 산업 품질 관리를 위한 최초의 통계 테스트로 기억되게 됩니다.

•

R.A. Fisher는 고셋의 통계 테스트에 깊게 감명받아 1924년에 고셋의 z-ratio를 변형하여 "Student’s t-test"라는 방식으로 발전시키게 됩니다. 고셋이 계산한 z-테이블의 값들을 재계산하여 t-테이블로 교체했고, 이걸 "Student’s t-distribution 분포"라고 명명하였습니다.

•

피셔는 나중에 ANOVA(분산 분석: 두개가 아니라 세개 이상의 집단들 간 특성차이를 검정하는 방법)를 발명함으로써 해당 개념을 더욱 발전시키게 되었답니다. 

통계적 유의미성과 실용적 유의미성의 딜레마 (Statistical Significance vs. Practical Significance)

다만, 우리가 회사에서 t-검정을 통해 데이터를 해석하기에는 세상이 변해도 너무 많이 변했습니다. 표본(샘플)과 모집단의 경계가 사라졌기 때문입니다.

기업이 데이터를 확보한 표본이 모집단과 일치하는 경우가 많습니다. 직원과 관련된 분석을 생각해 보면, 전직원의 데이터를 가지고 분석하는 경우가 대부분이고 이처럼 표본=모집단인 상황에서 표본에서 관찰된 차이를 일반화하여 모집단에 적용하는 것이 과학적으로 올바른지 가설을 세우고 검정하는 것이 과학적일수는 있지만 반드시 실용적인 태도는 아니라고 생각합니다. (물론 제 개인적인 견해입니다.)

그럼에도 불구하고, 데이터에 기반하여 의사결정을 내려야 하는 경우, 통계적으로 유의미한지 따지는 것은 조직 내 의사결정에 과학적 근거와 심리적 안정감을 주는 일이라, 통계적 유의미성을 따지기는 해야 합니다.

달리 표현하면, 의사결정을 내리기 위해서는 실용적 유의미성(Practical Significance: 해당 결정이 미칠 비지니스 파급력의 크기)과 통계적 유의미성(Statistical Significance: 관찰된 관계/차이가 우연히 발견될 확률은 정말 작다는 수학적 근거) 둘 다 필요합니다.

B. 특정 행동을 보인 집단 특성

“특정 행동을 보인 집단 특성”의 경우는 대상(직원, 고객)에 대해 이미 알고 있거나 알 수 있는 속성 정보들을 조합하여(나이는 50대 이상이고 기혼에다가 레저 활동 선호 등) 우리가 관심을 갖는 행동(월평균 백만원 이상 구매한 VIP)을 보인 집단을 최대한 정량적으로 정확하게 묘사하는 일입니다.

해당 속성의 조합에 부합하는 사람들이 항상 해당 행동(많이 구매)을 보이지는 않겠지만 (속성→행동 사이 인과성이 없으므로) 해당 행동을 보일 확률이 평균보다 높다면 해당 조건으로 Targeted Marketing에 활용할 수 있습니다.

아래 웨비나 동영상에서는 “특정 행동을 보인 집단 특성”을 개별 변수 수준에서 이해하는 방법과 변수의 조합으로 이해하는 방법 두가지를 설명하고 있는데, 본 블로그에서는 Decision Tree 알고리즘을 통해 ‘특정 행동을 보인 집단의 특성’을 변수의 조합으로 이해하는 방법에 대해서만 다루도록 하겠습니다.

보다 자세한 이론적 설명과 실습은 웨비나 영상을 참고해보세요.

Decision Tree: 해석이 가능한 분류(Classification) 알고리즘

대표적인 분류 모델인 Decision Tree는 그 규칙(선형적으로 집단을 구분)의 단순성으로 인해 그 결과를 사람이 이해하고 마케팅 등에 적용하기 좋습니다.

참고

•

Decision Tree 알고리즘에 대해 보다 자세한 설명이 필요하시다면 클릭

•

관련 해외 논문이나 사례 등이 풍부하지는 않지만 Decision Tree를 고객 행동 모델링에 사용하는 방법 정도를 참고하셔도 좋겠습니다. 

•

보다 자세한 이론적 설명과 실습은 아래 웨비나 영상이나 웨비나 페이지를 참고하세요.

•

아래 보험 청구 데이터는 여기에서 “하트카운트 샘플 데이터셋” 링크를 클릭하시면 다운받으실 수 있습니다.

아래 보험 청구 데이터셋을 가지고 보험사 입장에서 바람직한 행동을 보인 집단(최근 6개월 이내 입원하지 않은 집단)과 그렇지 않은 집단을 구분하는 규칙을 Decision Tree 알고리즘으로 찾아 보겠습니다.

아래 하트카운트에서 Decision Tree를 돌린 결과를 녹화한 영상에서와 같이 “입원여부=No”인 집단(파랑색 표시)의 대표적 특성은

•

비만지수가 25이하이고 비흡연자(비만지수 < 25.98 & 흡연여부 = no)입니다.

•

이 조건을 충족하는 피보험자가 250명 있었고 이중 92.8%가 실제 최근 6개월 이내에 입원하지 않았습니다.

•

이 수치(92.8%)는 전체 피보험자 중 “6개월 이내 입원하지 않은” 사람들의 비율인 41%에 비해 월등히 높은 숫자입니다.

•

해당 규칙은 우리가 병원에 자주 입원할 가능성이 낮은 사람들을 대상으로 마케팅 캠페인을 진행하고자 할 때 유용한 Target 조건이 될 수 있겠네요.

더 많은 데이터 히어로 학습 콘텐츠

하트카운트 사용해보기

하트카운트 도입 상담하기

하트카운트 뉴스레터 지난 호 보기 & 구독하기

실무자들을 위한 데이터 분석/시각화 커뮤니티 '데이터 히어로' 슬랙 가입