Search

보험사 고객 dataset

데이터셋 설명

데이터셋: 어느 보험사의 고객 데이터입니다.
sample_insurance.xlsx
79.1KB
주요 변수
Age: 나이
Sex: 성별
BMI: 신체 비만 지수
Children: 자녀수
Smoker: 흡연여부
Region: 보험 청구인이 사는 지역
Medical.Cost: 의료비 청구액
Insurance.Claim: 최근 6개월 이내 의료비 청구 여부
age
sex
bmi
steps.per.day
children
smoker
region
medical.cost
insurance.claim
18
male
33.77
3008
1
1725.5523
28
male
33
3009
3
4449.462
33
male
22.705
10009
0
21984.47061
32
male
28.88
8010
0
3866.8552
31
female
25.74
8005
0
3756.6216
46
female
33.44
3002
1
8240.5896
37
female
27.74
8007
3
7281.5056
37
male
29.83
8002
2
6406.4107

실습 내용

HEARTCOUNT의 요인분석익스플레이너 기능을 사용해서 KPI의 요인을 분석해보세요.
HEARTCOUNT 로그인 하기 (크롬 접속 권장, 언어: 한국어)
실습 데이터셋을 사용해서 캠페인을 생성해주세요.
문제(질문)에 대한 각 분석 결과 및 시각화 화면들은 저장(정리)하려면 아래 방법들을 활용해보세요.
개별 북마크로 저장 > 상단 “HTML 형식으로 내보내기” 기능 사용해서 html 형식으로 저장
차트의 경우, 오른쪽 마우스로 이미지를 저장
스크린샷으로 캡쳐
요인분석과 익스플레이너는 HEARTCOUNT 프리미엄 기능으로, 무료 버전 사용자의 경우 유료 플랜으로 업그레이드하거나 HEARTCOUNT 프리미엄 1개월 무료 체험을 신청하면 사용 가능합니다.
요인분석 비디오 튜토리얼 바로가기
익스플레이너 비디오 튜토리얼 바로가기

1. 의료비(medical cost) 요인 분석

1-1. 여성을 대상(상단 ‘필터링’ 기능 사용)으로 했을 때 의료비를 가장 잘 설명할 수 있는 두 변수의 조합은 무엇인가요? 설명력은 어느 정도인가요?
1-2. 나이가 50세 이하인 사람으로 분석 대상을 필터링 한 후 의료비에 대해 요인 분석을 수행한 경우, 독립변수 BMI의 결정계수는 얼마인가요? 결정계수가 높다는 건 어떤 의미인지 일상의 언어로 설명해보세요.
1-3. “1-2”에서 나온 요인 중 가장 설명력이 높은 변수의 조합과 해당 변수로 표현된 차트에 대한 해석(설명)을 해주세요. 아래 그림처럼 “변수 순서 바꾸기” 아이콘을 누른 후 바뀐 차트에 대한 해석(설명)을 해주세요.
1-4. “1-2”에서 파생변수(_bin, _percentile)을 사용하지 않고 요인분석을 수행해보세요. (아래 그림 참고) bmi_bin(파생변수)의 결정계수가 bmi보다 높게 나온 이유는 무엇인가요?

2. 익스플레이너

2-1. 전체 데이터를 가지고 의료비에 대해 분석한 결과의 세번째 요인은 무엇이고, 어떤 조건에서 의료비가 가장 높았나요? 차트를 설명해 보세요.
2-2. “2-1” 분석 결과의 여섯번째 요인에서 의료비의 총합에서 차지하는 비중이 가장 컸던 변수의 조합은 무엇인가요?

출제자의 모범 답안 참고하기

모든 실습을 마쳤다면, 모범 답안 영상을 참조하여 자가 채점을 진행해보세요!
여러분의 실습 결과와 다양한 의견을 슬랙을 통해 공유해주세요!
 더 많은 데이터 히어로 학습 콘텐츠
 하트카운트 사용해보기
 하트카운트 도입 상담하기
 하트카운트 뉴스레터 지난 호 보기 & 구독하기
실무자들을 위한 데이터 분석/시각화 커뮤니티 '데이터 히어로' 가입하기