Smart Feature Engineering
숫자형 변수를 자동으로 가공하여 데이터 속의 비선형적 패턴을 발견합니다
1. Binning 이란?
Binning은 대표적인 변수 가공(Feature Engineering) 기법 중 하나로, 숫자형 변수를 범주형 변수로 변형하는 작업입니다. (숫자형 변수와 범주형 변수에 대해 자세히 알고 싶다면 여기를 클릭하세요)
숫자형 타입이라 할지라도 개념적으로 범주형으로 처리해야 할 경우가 있습니다. 예를 들어 직원을 나이에 따라 청년(34세 이하), 장년(35~49세), 중년(50세 이상) 등으로 나누는 작업도 Binning이라고 할 수 있습니다.
2. Binning을 하는 이유?
Binning을 하는 이유는 숫자형 변수의 크고 작음에 따라 (1) 특정 레코드를 분류/구분하거나 회귀분석처럼 변수 간 선형적 관계를 찾는 알고리즘에서 발견하지 못한 (2) 비선형적 관계를 찾아내기 위함입니다.
아래 이미지는 [리더십 점수] 변수에 대해 Binning을 하기 전 후의 패턴 차이입니다.
[약한 선형적 관계 존재]
[Binning 후 비선형 패턴 발견]
첫 번째 이미지를 통해 직원 재직기간과 리더십 점수 사이에 매우 약한 선형적 관계(r: 0.05)가 존재하는 것을 알 수 있습니다.
그러나 두 번째 이미지와 같이 숫자형 변수인 리더십 점수를 범주로 자동 가공하여 통계적으로 유의한 비선형 패턴을 발견할 수 있습니다.
선형적 패턴이란?
독립변수(X)에 의해서 종속변수(Y)가 변화하는 관계가 1개의 직선으로 표현되는 패턴을 뜻합니다.
(ex. 일차함수)
비선형적 패턴이란?
1개의 직선으로 표현되지 않는 패턴을 뜻합니다. 원점을 지나는 한 개의 직선으로 모든 값이 일정하게 대응되는 선형적 패턴과 반대되는 것으로, 예측하기 어려운 패턴을 뜻합니다.
3. HEARTCOUNT의 Binning 기능
① 하트카운트 로그인 후 캠페인 생성 화면에서 Bin 개수를 정할 수 있습니다. 사용자가 수동으로 설정하지 않을 경우, Default로 Bin은 10개, Percentile은 5개 적용되어 있는 것을 볼 수 있습니다.
하트카운트는 bin, percentile 변수를 30개 이하로 설정하는 것을 권장하고 있습니다.
② KPI를 설정할 수 있는 KPIs 관리 화면에서 사용자가 직접 파생변수 중 집중적으로 분석할 KPI를 선택할 수 있습니다. 단, bin 변수와 percentile 변수는 최대 4개까지만 KPI 설정이 가능하다는 점, 주의해주세요.