Smart Feature Engineering
数値型変数を自動的に処理してデータの中の非線形パターンを発見します。
1. Binningとは?
Binningは代表的な変数加工(Feature Engineering)手法の一つで、数値型変数をカテゴリ型変数に変換する作業です。 (数値型変数とカテゴリ型変数について詳しく知りたい方はこちらをクリックしてください)
数値型であっても、コンセプト的にカテゴリー型で処理する必要がある場合があります。例えば、従業員を年齢によって青年(34歳以下)、壮年(35~49歳)、中年(50歳以上)などに分ける作業もBinningと言えます。
2. Binningをする理由?
Binningを行う理由は、数値型変数の大小によって、(1)特定のレコードを分類/区別したり、回帰分析のように変数間の線形関係を見つけるアルゴリズムで発見できなかった(2)非線形関係を見つけるためです。
下の画像は[リーダーシップスコア]変数に対してBinningをする前と後のパターンの違いです。
[dataset: HR dataset(eng)
[Binning] / dataset: HR dataset(eng)
最初の画像から、従業員の在職期間とリーダーシップスコアの間に非常に弱い線形関係(r: 0.05)が存在することが分かります。
しかし、2番目の画像のように、数値型変数であるリーダーシップスコアをカテゴリーに自動加工して、統計的に有意な非線形パターンを発見することができます。
線形パターンとは?
独立変数(X)によって従属変数(Y)が変化する関係が1本の直線で表現されるパターンを意味します。
(ex. 一次関数)
非線形パターンとは?
1本の直線で表現されないパターンを意味します。原点を通る一つの直線にすべての値が一定に対応する線形的パターンと反対のもので、予測が難しいパターンを意味します。
3.HEARTCOUNTのBinning機能
① ハートカウントログイン後、キャンペーン作成画面でBin数を設定することができます。ユーザーが手動で設定しない場合、DefaultでBinは10個、Percentileは5個が適用されていることが確認できます。
ハートカウントはbin、percentile変数を30個以下に設定することを推奨しています。
② KPIを設定できるKPIs管理画面で、ユーザーが直接派生変数の中から集中的に分析するKPIを選択することができます。ただし、bin変数とpercentile変数は最大4つまでしかKPI設定ができないことに注意してください。