home

People Analytics | 직원의 성과, 데이터로 얼마나 예측할 수 있을까?

ⓒunsplash

People Analytics가 실용적인 일이 되려면

People Analytics, 즉 인사 데이터 분석에서 실용적이라는 것은 통제할 수 있는 것과 통제할 수 없는 것을 구분하고 통제할 수 있는 것에 집중하여 변화를 이끌어내는 일입니다.
직원의 성과는 오묘하여 그 전모를 온전히 알 수 없으니 건드리지 말자는 태도나 “하나를 보면 열을 안다"는 환원주의적 태도는 조직에 긍정적 변화를 만들어 내지 못하므로 실용적이지 못합니다. (제 경험에 의하면 명백히 상충하는 이 두가지 태도는 상황에 따라 한 사람에게서 번갈아 가며 나타나곤 합니다.)
이번 글에서는 다수의 프로젝트들을 통해 People Analytics를 조금 더 먼저 겪어본 필자의 실제 경험을 토대로, People Analytics 분야 중에서도 특히 ‘직원 성과 분석’에 대하여 느꼈던 점 그리고 효과적으로 수행하는 방법을 살펴보고자 합니다.

성과의 차이를 가져오는 요인(Performance Driver)

성과를 정의하는 일은 매우 어렵습니다. 성과를 정확히 측정하는 일은 아예 불가능합니다.
하지만, 사람마다 성과에 차이가 난다는 점에는 쉽게 동의할 수 있습니다. 쟤가 걔보다 두배 더 일을 잘 한다고 말하기는 힘들어도 쟤와 걔가 일하는 모습을 오래 관찰한 사람이라면 상대적으로 쟤가 걔보다 일을 더 잘한다고 주장할 수 있을 것입니다.
상대적으로 쟤가 걔보다 일을 더 잘한다는 (줄 세우는) 판단 자체의 부당함과 부조리함을 따지고 든다면 성과 분석은 아예 시작할 수 없습니다. 참값(true value)을 측정할 수도 없고 추정한 값(성과등급)들 간의 상대적 차이를 인정할 수도 없는 변수에 대한 분석이 무의미하기 때문입니다.
하지만, 주관적이고 정성적인 성과평가 방식이 개인 간의 성과 차이를 관찰, 측정할 수 있는 현실적인 유일한 도구라는 점을 인정한다면, “직원 성과 분석”은 성과등급(점수)의 차이를 가져오는 요인을 찾는 일이라고 일단 이야기할 수 있을 거 같습니다.

직원의 성과, 데이터로 얼마나 예측할 수 있을까?

다음 두가지 분석 결과를 가정해 봅시다.
가) 데이터를 통해 정량적으로 설명할 수 있는 직원 성과의 차이는 30%이다.
나) 직원들의 행동데이터만으로 성과를 90% 정확도로 예측할 수 있다.
어떤가요?
가)는 여전히 형이상학적 차원에서 두둥실 떠 있는 성과를 실증적 차원으로 충분하게 끌어내리지 못한다는 한계에 낭패스럽고요.
나)는 나의 성과가 데이터+알고리즘으로 뻔하게 예측가능하다는 생각에 좀 섬뜩합니다.
실제 가)는 2년 전에 A 고객사와 수행했던 프로젝트의 결과입니다. 성과요인에 대한 “설명”에 집중하다보니 의도적으로 덜 복잡한 알고리즘을 사용했고 결과적으로 학력, 인적성 결과 등 “전통적인 인사 데이터”로 설명할 수 있는 성과(점수)의 차이가 30% 정도밖에 되지 않았습니다. (30%가 작냐, 크냐고 물으신다면 비교할 결과물들이 충분하지 않아 답변하기 어렵습니다.)
반면 나)는 올해 B 고객사와 (고)성과 예측모형을 수립했던 프로젝트 결과입니다. 이 프로젝트가 특별했던 점은 직원의 성과를 예측하는 일에 직원들이 회사 생활을 통해 남긴 다양한 디지털 행동데이터들을 입력변수로 사용하여 예측 정확도가 높은(90% 수준) 모형을 만든 점입니다.
사람의 행위와 관련한 모형을 만드는 사람들 사이에 정확하거나 유용한(either accurate or useful) 모형은 만들 수 있지만 정확하고 동시에 유용한 모형은 만들기 힘들다는 이야기가 있습니다.
하지만, 이번 프로젝트에서는 정확할뿐만 아니라 현장에서 활용할 수 있는 유용한 모형을 만들기 위하여 *Interpretable Machine Learning이라는 분석 기법도 함께 적용하여 모형의 작동방식도 투명하게 제시하였습니다. (Interpretable Machine Learning”의 개념과 방법을 보다 자세히 알고 싶으신 분은 이글 맨 아래 관련 내용을 읽어 보셔도 좋습니다.)
프로젝트를 통해 직원들의 인식(서베이) 변수가 아니라 행동 변수들을 사용하여 고성과자와 저성과자를 아주 높은 정확도로 예측하는 블랙박스 모형을 만들었고, 블랙박스 모형의 내부 작동방식을 사람이 이해할 수 있는 방식으로 제시하여 고(저)성과자들이 어떤 행동을 보이는지도 대략 알게 되었습니다.
결론부터 미리 당겨서 이야기하자면, 예측모형의 쓸모(실용성)에 대해서는 여러가지 한계가 드러났는데요.
그 내용을 아래에서 살펴보겠습니다.

직원 성과 모형: 행동데이터로 성과를 예측(설명)하는 모형이 실효성을 가지려면

개인 수준에서의 성과(Performance)가 능력(Talent; Ability)과 노력(Effort; Motivation) 두가지 변수의 함수라고 가정하고 보편적 성과 모형을 아래와 같이 정의해 보았습니다. 개인의 능력(talent)과 노력(effort, motivation)이 더해져 구체적인 행동으로 이어지며 회사에서는 개개인의 행동에 가치를 매겨 성과로 책정합니다.
직원의 능력(Talent)에 대한 정의는 산업과 직무, 그리고 인간관에 따라 다채로울 수 있지만 일반화하여 이야기한다면 능력을 발휘하고 노력을 쏟아 중요한 일을 사이좋게 열심히 잘 할수록 고성과자일 것입니다.
능력과 노력의 구체적 표현인 행동 데이터를 입력변수로 해서 고/저성과자를 구분하거나 성과점수를 정확히 예측하는 모형을 만들 수 있다면 성과를 평가하는 일의 주관성을 보완(궁극적으로는 대체)할 수 있을 텐데, 여기 중요한 함정(내지는 한계)이 있습니다.
행동데이터로 성과를 예측(설명)하는 모형이 실효성을 가지려면 모형의 입력변수들인 행동데이터들이 능력x노력의 대리변수(Proxy Variable)로서 일하는 행위의 정성적 측면(사이좋게, 열심히, 잘)을 일정 수준 이상 반영할 수 있어야 하는데 아쉽게도 현재 측정가능한 정량적 행동데이터는 능력x노력의 정성적인 측면을 충분히 담아내지 못합니다.
위 표와 같이 숫자로 환원될 수 있는 대부분의 행동 데이터는 능력x노력의 결과(현상)로서 일을 얼마나 많이 자주하는지를 나타낼 뿐 왜 어떻게 했는지에 대한 내용을 담지 못합니다.
예측모형을 사용하여 고성과자들의 (저성과자와 구분되는) 대표적이고 공통적인 행동 패턴(예, 메일 발신량이 직급 평균 대비 000% 수준이고, 야근은 평균보다 000~000% 더 많이 한다 등등)을 알 수 있고 해당 패턴을 사용하여 고성과자를 상당히 정확하게 예측할 수는 있습니다.
하지만, 입력변수로 성과의 원인(능력x노력)이 아니라 사후적 행동을 사용했기 때문에 고성과자의 Performance를 지속적으로 유지하기 위해 혹은 저성과자의 성과를 끌어올리기 위해 무엇을 어떻게 바꾸어야 하는지를 아는 데는 실질적 도움이 되기 어렵습니다.

우리가 개입할 수 있는 개인의 능력과 노력에는 어떤 것이 있지?

[능력x노력 - 행동 - 성과] 모형을 모형에 활용할 수 있는 데이터의 유형(정량 vs. 정성)과 입력 변수에 개입할 수 있는지 여부, 그리고 통제가 가능하다면 어떤 방식으로 가능한지(Targeting vs. Change)에 따라 좀 더 구체화한 것이 아래 그림입니다.
Intervention = Targeting(Pre-Hire): 성과와 관련 있는 입력변수를 발견한 후 해당 입력변수에 개입하여 직원 선발에 활용(이공계 출신으로 성실한 지원자에게 선발 시 가점 부여 등)할 수 있지만 일단 뽑고 나면 더 이상 개입하기 힘듭니다.
Intervention = Change(Post-Hire): 선발 이후 HR에서 개입할 수 있는 것으로 몰입해서 생산적으로 일 할 마음이 들게 하는 Culture, Leadership, 함께 일하는 방식 등이 되겠습니다.

Maximum Performance vs. Actual Performance

개인의 능력(Talent)은 개인이 발휘할 수 있는 최고치 성과(Maximum Performance)를 결정한다고 생각합니다.
그리고 사람마다 도달할 수 있는 최고 성과 수준은 사람마다 차이가 나고 일정 시점 이후에는 쉽게 변하지 않습니다. (우리 모두 보통 이상의 능력을 가지고 있다고 생각하지만 운전자의 90% 이상이 평균 이상의 운전실력을 가지고 있다는 믿음처럼 근거가 희박하겠구요…)
하지만, 정작 구체적인 일터에서 개인이 보이는 Actual Performance는 Maximum Performance가 아니라 [Maximum Performance x 노력(동기, 몰입수준)]입니다.
기업들이 Engagement를 강조하는 이유이겠습니다.
[실제 성과 = 능력 x 노력]

몰입 요인(X), 성과점수(Y): 이렇게 하면 아무 것도 안 나와요.

하지만, 몰입으로 성과를 예측하고 설명하는 일에 또 하나의 커다란 함정이 있습니다.
개인의 성과등급 내지 점수를 목표변수(Y)로 삼고 몰입을 위한 환경을 간접적으로 나타낼 수 있는 요인들(Proxy Variables; 리더십, 일하는 방식)를 입력변수(X)로 하여 분석을 해보면 뚜렷한 패턴(X-Y 사이에 존재하는 질서나 규칙)이 나오지 않습니다.
이건 리더십 수준이나 팀이 일하는 방식과 무관하게 어떤 팀이든 고/저성과자는 반드시 존재하기 때문에 리더십과 같은 몰입 요인들이 고성과자와 저성과자를 구분하는데 도움이 되지 못한 결과입니다.
(아주 낮은 리더십을 보인 양팀장님 조직이나 높은 리더십을 보인 강팀장님 조직이나 고성과자, 저성과자는 비슷한 비율로 존재)

성과 측정은 결국 몰입인 건가?

X를 바꾸어 Y를 개선하려면 아래 두가지 조건이 필요한데,
X와 Y 사이에 사회 통념 상의 인과관계가 존재
X에 대한 통제(Intervention) 가능성
이 두가지 조건을 다 만족하는 유일한 People Data는 아무래도 아래인 것 같습니다.
Y: 몰입 수준
X: 몰입 요인
그리고 몰입을 잘 하고 있는지 잘 하려면 무엇이 필요한지는 물어봐야만 알 수 있습니다.

몰입을 측정하려면, 설문 데이터 활용하기

몰입(노력)과 관련된 유일한 문제는 몰입을 설문과 같은 방식 말고는 과학적으로 측정하기 어렵다는 것입니다.
궁여지책으로 몰입하는 직원(=고성과자라고 치고)의 행동을 분석하면 몰입에 대한 단서를 얻을 수 있지 않을까 생각할 수 있지만 아쉽게도 대부분의 기업에서 합법적으로 확보 가능한 행동 데이터는 특정 행위의 절대적/상대적 빈도와 횟수를 알려줄 수는 있어도 몰입과 같은 정성적인 측면을 담아내기는 어렵습니다.
몰입하면 에너지 대사가 커진다는 가정 하에 열화상 카메라로 직원을 촬영하여 몰입수준을 관찰할 수 있다는 이야기를 들은 적이 있고요.
동공의 크기로 몰입도를 알 수 있다는 이야기를 과학저널에서 읽은 기억도 납니다.
로그에서 추출한 행동데이터를 가지고 동일 직급 평균 대비 상대적 야근 빈도 등 단순한 횟수를 넘어 어느 정도 활용도가 있는 행동을 이해할 수 있지만, 역시 정량적 숫자라는 한계가 있습니다.

설문 데이터의 한계와 불신

정성적인 변수를 이해하기 위해서 질문하는 것은 촌스럽지도 잘못된 일도 아닙니다. Facebook 같은 회사도 고객의 의도와 동기를 이해하기 사용자의 디지털 로그만 보지 않고 설문을 활용합니다. 물어보지 않고서는 왜 기사를 클릭했는지 알 수 없으니깐요.
하지만, 국내 기업 현장에는 서베이에 대한 뿌리깊은 불신이 존재합니다. 설문 결과가 한번도 실용적으로 사용되지 못했던 것이 그 이유일 텐데, 조금 더 구조화해서 살펴보면
질문이 미리 정해져 있음: 동기 부여를 위한 개개인의 필요가 다양할 텐데 사전에 정의된 질문에 개인들의 Needs를 다 담기 힘듬.
솔직히 답변하지 않음: 불이익에 대한 두려움이나 이게 무슨 의미가 있겠냐는 심리적 이유도 있겠고, 객관식 답변으로는 어차피 내 솔직한 목소리를 전달할 수도 없음
그래서, 아래 정도가 그 대안이 될 수 있지 않을까요?
[챗봇과 텍스트분석을 통한 몰입수준과 요인 발견]

통제할 수 있는 것과 없는 것을 잘 구분하고, 통제의 효과가 큰 요인에 집중

우리가 선택적으로 직원들에게 강조할 수 있는 몰입 요인은 헤아릴 수 없이 많습니다.
단어의 선택과 조합으로 무한히 재생산이 가능한 무수히 좋은 문장들 앞에서 질식 당하게 됩니다.
정부의 시장에 대한 규제의 효용은 정부가 시장이 작동하는 원리를 정확히 파악하여 시장 참여자들을 항상 옳은 결정으로 안내하는 데 그 가치가 있기보다는 시장 참여자들이 불확실성에 압도당하여 멍청한 의사결정을 내리지 않도록 의사결정 행위의 복잡성을 제한하는 데 있다는 이론이 있습니다.
이제는 세상에 널리 알려진 구글 산소 프로젝트의 가치도 그 내용의 참신함이 아니라, 데이터를 통해 확인한 훌륭한 리더들의 구체적인 행동기준들을 *8~10가지로 제한하여 리더들이 직원과 관련한 의사결정을 내리는 일의 불확실성을 줄여준 것에 있다고 생각합니다.
[구글 산소 프로젝트]
2018년에 두개 항목이 더 추가되어 10개임: https://rework.withgoogle.com/blog/the-evolution-of-project-oxygen/
패러다임이 바뀌려면 새로운 패러다임으로 과거의 패러다임에서는 쉽게 풀리지 않았던 문제가 해결되어야 합니다. People Analytics가 새로운 패러다임으로 자리 잡을 수 있으려면 성과나 생산성과 관련된 문제에 실용적인 해결책을 제시할 수 있어야 하겠습니다. 함께 갈 길이 멉니다.
참고: Interpretable Machine Learning (어려워 보이면 skip)
설명력이 높은 모형(회귀분석, 의사결정트리 등)의 경우 고성과(Y) 요인에 대해 투명한 설명을 제공해주지만 모형의 예측정확도가 높지 않은 반면에 예측력이 뛰어난 모형의 경우 모형의 작동방식이 불투명하여 특정직원이 왜 고성과자로 분류되었는지, 왜 저성과자와 유사도가 높게 나왔는지 등에 대해 공감할 수 있는 설명을 제공하지 못해 모형의 신뢰도와 활용도가 떨어지게 된다.
Interpretable Machine Learning은 기계학습 모형의 설명력과 예측력 간의 trade-off(길항작용)를 극복하기 위하여, 우선 예측력 높은 복잡한 모형을 수립한 후 해당 모형의 작동 방식을 사람이 해석할 수 있는 방식으로 투명하게 제시하는 기술과 방법을 지칭하는데 사람이 모형이 학습한 그릇된 패턴을 감사(Audit)하고 성과(Y)를 높이기 위해 입력 변수들에 어떤 방식으로 개입(Intervention)해야 하는지 알려주기 때문에 모형에 대한 신뢰도와 활용성을 높이는 방법으로 최근 많은 관심을 받고 있다.
Interpretable Machine Learning에 대해 자세히 공부하고 싶다면 링크 참고: https://christophm.github.io/interpretable-ml-book/
 하트카운트팀의 더 많은 아티클 보러가기
 하트카운트 사용해보기
 하트카운트 도입 상담하기
 하트카운트 뉴스레터 지난 호 보기 & 구독하기
실무자들을 위한 데이터 분석/시각화 커뮤니티 가입하기