寿司を食べたい

寿司が食べたい

カテゴリ変数のエンコーディング

カテゴリ変数のエンコーディングについて

 

・ワンホット

バイナリにして、カテゴリ毎にカラムを作成する方法。カラム数が膨大になる。

 

・ラベルエンコーディング

数値化するだけ。簡単

 

・ターゲットエンコーディング

効果は高いけど、リークする可能性がある為上級者向け。目的変数の平均値等にする。

 

・リーク

説明変数に目的変数の情報が入ってしまう事。前述のターゲットエンコーディングを行えば、目的変数の情報が入った説明変数ができる。よって、オーバーフィットしたモデルができる危険性がある。