Smart Feature Engineering
数値型変数を自動的に加工してデータの中の非線形パターンを発見します。
1. Binning (ビニング) とは?
Binningは代表的な変数加工(Feature Engineering)手法の一つで、数値型変数をカテゴリ型変数に変換する作業です。(数値型変数とカテゴリ型変数について詳しく知りたい方はこちらをクリックしてください)
数値型であっても、コンセプト的にカテゴリ型として処理する必要がある場合があります。例えば、従業員を年齢によって青年(34歳以下)、壮年(35~49歳)、中年(50歳以上)などに分ける作業もBinningと言えます。
2. なぜBinningをするのか?
Binningを行う理由は、数値型変数の大小によって、(1)特定のレコードを分類/区別したり、回帰分析のように変数間の線形関係を見つけるアルゴリズムで発見できなかった (2)非線形関係を見つけるためです。
以下の画像は「リーダーシップスコア(Manager_Vision)」変数に対してBinningを行う前と後のパターンの違いです。
弱い線形関係が存在 [dataset: HR datatset (eng)]
Binning後に非線形関係を発見 [dataset: HR dataset (eng)]
最初の画像から、従業員の在職期間とリーダーシップスコアの間に非常に弱い線形関係(r: 0.05)が存在することが分かります。
しかし、2番目の画像のように、数値型変数である「リーダーシップスコア」をカテゴリに自動加工することで、統計的に有意な非線形パターンを発見することができます。
線形パターンとは?
独立変数(X)によって従属変数(Y)が変化する関係が1本の直線で表現されるパターンを意味します。
(例: 一次関数)
非線形パターンとは?
1本の直線で表現されないパターンを意味します。原点を通る1本の直線にすべての値が一定に対応する線形パターンとは反対のもので、予測が難しいパターンを意味します。
3. HEARTCOUNTのBinning機能
①HEARTCOUNTにログイン後、キャンペーン生成画面でビン(Bin)の数を設定することができます。ユーザーが手動で設定しない場合はデフォルトでビン(Bin)は10個、パーセンタイル(Percentile)は5個、それぞれ設定されます。
HEARTCOUNTではビン(bin)、パーセンタイル(percentile)変数を30個以下に設定することを推奨しています。
②KPIを設定できるKPIs管理画面で、ユーザーが直接、派生変数の中から焦点をあてて分析するKPIを選択することができます。ただし、ビン(bin)変数とパーセンタイル(percentile)変数については最大4つまでしかKPIを設定することができないことに注意してください。