Intro (서론)
이제 여름이 다가왔고, 주변의 많은 사람들이 여름 휴가 여행을 위해 비행기표를 구매한다는 소식이 들려온다. (필자도 이제 미국에서의 생활을 정리하고 여름에 귀국한다!). 국제여행은 2019년 말 이후로 처음이니까, 약 2년 반만이다!
그때의 탑승 경험이 어땠는지를 떠올리다가, 문득 어떠한 요인들이 탑승 경험에 긍정적이거나 부정적인 영향을 줬는지가 궁금해졌다. 이러한 요인에 대한 분석을 한다면, 항공사들도 고객의 입장에서 자사의 강점인 서비스들과 개선해야 할 점들을 더욱 통찰력 있게 파악할 수 있을거라 생각한다.
Dataset (데이터셋)
데이터 분석을 위해 kaggle에서 다운로드한 “Airline Passenger Satisfaction” 데이터셋을 이용했다. 약 120,000이상의 승객이 만족도 설문조사에 참가했고, 그들의 비행의 여러 요소에 대한 평가를 했다.
아쉽게도 각 승객이 어떤 항공사를 이용했는지에 대한 정보는 담겨져 있지 않았다. 승객들의 성별, 여행 목적 (비즈니스/사업 혹은 개인 여행), 나이, 비행거리, 지연 시간, 등 같은 변수들이 있었는데, 변수들을 다 파악하고 싶다면, 아래 Table을 참고하면 된다.
주요 변수:
주요 변수 테이블:
Analysis in HEARTCOUNT (데이터 분석)
•
Dashboard Results:
•
만족도 조사에 참여한 남여 비율은 비슷했고, 두 집단 모두 56-57%가 비행이 “불만족”이라고 평가했고, 43~44%가 “만족”이라고 평가했다.
•
Smartplot - 도착 지연과 승객 만족도의 관계는 어떤가?
•
예상했던 것처럼 도착 시간이 지연이 높으면 만족도 또한 내려간다. Inverse-relationship
•
SMARTPLOT - 비행 경험이 만족스럽다고 한 승객들이 과연 비행의 모든 요소에 더 후한 점수를 줬는가?
“불만족” 집단은 기내식에 대한 점수를 “만족” 집단보다 훨씬 더 낮게 줬다.
불만족 집단의 체크인 서비스에 대한 평가는 “만족” 집단 보다 낮았다
Departure and Arrival Convenience - 불만족 집단이 더 만족스러웠다고 대답했다.
•
최종적으로 탑승/비행 경험이 “만족스러웠다”라고 한 승객들은 불만족스럽다고 한 승객들보다 “청결 수준, 수화물 취급, 체크인 서비스” 등 같은 요소들에 더 높은 점수줬다. 근데 놀랍게도 “불만족” 집단이 도착/출발 시간의 convenience (즉 탑승했던 비행기의 이/착륙 시간이 얼마나 승객의 스케줄에 맞았는지) 점수를 더 높게 줬다.
•
Difference Analysis - 전체적으로 비행에 대한 만족도가 “불만족” 이었던 집단과 “만족”이었던 집단 구분하는 가장 중요한 요소 (3위까지) 가 무엇인가?
비행 만족도가 “만족”이었던 승객과 “불만족”이었던 승객을 구분하는 가장 두드러진 특성 세가지는 Online Boarding (온라인 체크인)만족도, 비행기 클래스 등급, 그리고 기내 와이파이 서비스 만족도였다.
•
온라인 체크인에 대한 만족도가 두 집단의 50.05%를 구분한다. 체크인에 대한 만족도가 높을수록 전체적인 비행 만족도가 “만족”스러울 가능성이 높다.
•
좌석 등급이 높을수록 (비즈니스) 승객 만족도가 높다. 등급이 높으면 제공 받는 서비스가 그만큼 더 좋으니까 만족도 또한 올라가지 않을까 추측했는데, 오히려 분석 결과는 on-board service가 두 집단의 16.22%만 구분한다고 나와있어서 의외였다.
◦
비싼 표를 살수록 저절로 만족도도 높아지는 걸까.. 흠
•
Difference analysis 추가적인 insight:
◦
나이(age_bin) 혹은 성별 (gender)로 나뉜 집단들을 구분하는 요소들은 나타나지 않았다 - 즉, 특정한 나이나 성별이 비행에 대한 평가나 점수를 덜 혹은 더 주지 않았음.
◦
•
Microsegment - 만족도 변수로 만족/불만족을 분류하는 모형을 만든 후, "만족"을 가장 정확히 예측하는 규칙은 무엇인가?
만족을 가장 정확히 예측하는 규칙은 3.5 ≤ 온라인 체크인 만족도 점수와 type of travel = [여행 목적이 비즈니스/출잘) 이다. Purity가 85.1%, Target Ratio가 77.4%였다.
INSIGHT
•
한 가지 아쉬웠던 점은, 고객의 전체적인 만족도가 Neutral/dissatisfied vs. Satisfied로 밖에 분류되지 않았던 사실이다. 만족도를 매우 불만족 - 불만족 - 불만족스럽지도, 만족스럽지도 않았다 - 만족 - 매우 만족로 나뉘어졌더라면, 분석이 좀 더 의미있지 않았을까 생각한다.
•
이후 접하는 승객 만족도 데이터셋은 항공사에 관한 정보도 포함되면 좋겠다!
•
분석 결과 이전에 나는 좌석의 편안함과 레그룸이 승객 만족도에 제일 중요한 요소들이라고 생각했는데 의외로 그렇지도 않았다는 점에 놀랐다 (만족-불만족 집단의 단 18.02% / 20.62% 밖에 구분하지 못했다).
•
또한 전체적으로 “만족”이라고 평가했던 집단이 “불만족” 집단보다 모든 요소에 더 후한 점수/평가를 줄거라고 생각했는데, 그건 아니었다.
•
풀타임 일과 공부를 병행하면서 데이터 히어로 챌린지에 참여하게 되어서 원했던만큼 하트카운트와 데이터분석에 대해 마스터하진 못해서 아쉽다. 하지만 이렇게 좋은 프로그램 덕분에 익숙하지 않은 데이터 분석에 대해 더 잘 알게 된 거 같아 기쁘다.