Search
Duplicate

HR master dataset

데이터셋 설명

dataset : 인사 데이터로, 각 레코드는 직원 한 명 한 명에 대한 관찰/측정/수집값들로 구성되어 있습니다.
HR_sample_dataset.xlsx
339.3KB
주요 변수
채용경로 : 공채, 인턴 등
근속기간
출신대학, 대학구분(국립, 해외, 수도권, top5 등)
직군
퇴직구분
매니저여부
성과점수
미사용 휴가일수
본인.인내력, 본인.실행력, 본인.인지능력
매니저.비전, 매니저.소통, 매니저.실행력
직원만족도
매출액: 천원단위

실습 내용

HEARTCOUNT의 시각화 기능([가]EDA)자동 분석 서비스([나], [다])을 사용해서 아래 문제들에 대한 답을 담고 있는 차트를 시각화하거나 분석 결과를 도출해보세요.
HEARTCOUNT 로그인 하기 (크롬 접속 권장, 언어: 한국어)
실습 데이터셋을 사용해서 캠페인을 생성해주세요.
문제(질문)에 대한 각 시각화 화면들을 저장하려면, 아래 방법들을 활용해보세요.
개별 북마크로 저장 > 상단 “HTML 형식으로 내보내기" 기능 사용해서 html 형식으로 저장
오른쪽 마우스로 이미지를 저장하거나, 스크린샷으로 캡쳐
HEARTCOUNT 기능별 비디오 튜토리얼 바로가기
[나]와 [다] 실습에 쓰이는 자동 분석 서비스는 HEARTCOUNT 프리미엄 기능으로, 무료 버전 사용자의 경우 유료 플랜으로 업그레이드하거나 HEARTCOUNT 프리미엄 1개월 무료 체험을 신청하면 사용 가능합니다.
아래 문제들을 그대로 따라해도 좋고, 힌트로 삼아 추가적인 질문들을 떠올려보셔도 좋습니다.

[가] EDA

아래 질문에 따라 자유롭게 EDA를 해보세요.
1.
직원만족도
a.
직원만족도와 상관관계가 가장 높은 리더십 역량은 무엇인가? (hint. 스마트 플롯)
b.
해당 관계를 사업장으로 구분해서 관찰했을 때 관계가 가장 높았던 낮았던 사업장은? (hint. 화면분할 or 색상 기능을 통해 하위 그룹으로 분류)
c.
직원만족도의 분포(boxplot)를 팀구분(X축)으로 살펴보았을 때 아웃라이어(특이값)들이 많이 관측되는 팀은 어딘가?
d.
평균 직원만족도가 가장 높은 팀과 낮은 팀은 어디? (hint. 하위그룹: X축)
e.
개별 팀의 구성원들을 연령대(하위그룹: 나이_bin)로 drill-down했을 때 개별 팀내에서 연령대와 직원만족대 간에 어떤 패턴이 존재하는가?
2.
성과점수
a.
성과점수와 상관관계가 가장 높은 숫자형 변수는 무엇이고 관계의 크기는 얼마인가? (hint. 스몰 멀티플즈를 이용해보세요.)
b.
사업장위치 x 대학구분 x 성별로 성과점수를 드릴다운한 경우 평균 성과점수가 가장 높은 조건은? (hint. 드릴다운을 이용해보세요.)
c.
b.와 동일한 조건에서 시각화 방식 icon(아래 이미지)을 하나씩 클릭해가며 살펴 봅시다.
d.
직원수가 10명 이상인 “출신대학" 중 평균 성과점수가 가장 높은 곳은? (hint. 드릴다운 - 레코드 개수 필터링)

[나] 요인 분석

[가]에서 EDA로 직원만족도와 성과점수와 관련된 패턴들을 찾았다면, 이번에는 요인분석(회귀분석 결과) 메뉴를 통해 두 목표 변수(직원만족도, 성과점수)의 차이를 잘 설명할 수 있는 요인들을 해석하는 연습을 해봅시다.
1.
직원만족도의 차이를 가장 잘 설명할 수 있는
‘독립’변수들을 개별적으로 살펴 보고 해석해 봅시다. 각 변수의 R2(결정계수)와 시각화 결과를 함께 비교해 보며, 회귀분석에서 차이를 설명한다는 게 어떤 것인지 이해하려고 노력해 봅시다.
요인 분석 결과 중 변수 두 개의 조합(테이블 상단에 있는 버튼)들만을 따로 살펴 보고 해석해 봅시다. 두 개의 ‘독립’변수로 직원만족도의 차이가 더 잘 설명되나요? 자동으로 선택된 시각화 결과가 마음에 들지 않는다면, 내 주장을 더 잘 담을 수 있는 형식으로 바꾸어 보는 연습도 해보시면 좋겠습니다.
2.
성과점수에 대해서도 동일한 작업을 해보아요.

[다] 두 집단 비교하기

1. 비교 분석
1-1. (퇴직구분 변수 사용) 재직자와 퇴직자를 구분하는 가장 두드러진 특성은 무엇이며 두 집단간에 어떤 차이가 존재하나요?
1-2. 직원만족도가 높은(상위 20%) 집단과 낮은(하위 20%) 집단 간 어떤 특성 차이가 가장 두드러지나요?
1-3. 성과점수가 높은(상위 20%) 집단과 낮은(하위 20%) 집단이 직군 관점에서 어떤 차이가 있는지 기술해보세요.
2. 마이크로세그먼트
2-1. 퇴직구분 변수로 yes/no를 분류하는 모형을 만든 경우, yes를 가장 “정확히” 예측하는 규칙은 무엇인가요?
2-2. “2-1” 분석 결과 중 가장 많은 yes(퇴사자)를 분류하는(즉, 재현율/recall이 가장 높은) 변수의 조합(규칙)은 무엇인가요?
2-3. 성과점수 기준 top20% vs. bottom20%를 분류하는 규칙을 찾은 후, 통제불가능한 변수들(예, 직군, 사업장)을 제거하여 모델링하는 작업을 반복하여, 통제가능한 변수들로 구성된 모델을 참고하여, 성과점수 최적화 방법에 대해 제안해보세요. (*통제가능한 변수, 회사의 정책 변경이나 개입으로 바꿀 수 있는 변수들)

출제자의 모범 답안 참고하기

모든 실습을 마쳤다면, 모범 답안 영상을 참조하여 자가 채점을 진행해보세요! 이번 실습의 경우, [다]의 모범 답안만 제공합니다. 추가적으로 궁금한 부분은 슬랙에 남겨주시면 답변 드리겠습니다.
여러분의 실습 결과와 다양한 의견을 슬랙을 통해 공유해주세요!
 더 많은 데이터 히어로 학습 콘텐츠
 하트카운트 사용해보기
 하트카운트 도입 상담하기
 하트카운트 뉴스레터 지난 호 보기 & 구독하기
실무자들을 위한 데이터 분석/시각화 커뮤니티 '데이터 히어로' 가입하기