寿司を食べたい

寿司が食べたい

カテゴリ変数のエンコーディング

カテゴリ変数のエンコーディングについて

 

・ワンホット

バイナリにして、カテゴリ毎にカラムを作成する方法。カラム数が膨大になる。

 

・ラベルエンコーディング

数値化するだけ。簡単

 

・ターゲットエンコーディング

効果は高いけど、リークする可能性がある為上級者向け。目的変数の平均値等にする。

 

・リーク

説明変数に目的変数の情報が入ってしまう事。前述のターゲットエンコーディングを行えば、目的変数の情報が入った説明変数ができる。よって、オーバーフィットしたモデルができる危険性がある。

復活力

サンドウィッチマンの「復活力」について。

 

2007年にM1グランプリで敗者復活戦から優勝した、サンドウィッチマン

そこに至るまでの軌跡が伊達さんと、富澤さん二人の目線で書かれている。

 

特筆すべき内容は、富澤さんが仕事がなく肺炎にかかった時にメンタル病んで自殺を考えていた時の事。

敗者復活戦から決勝戦のスタジオに行くまでの二人の心理描写が臨場感たっぷりに書かれていて読んでいる人がその場にいるような感覚を味合わせてくれる。

コールセンターで使えるデータサイエンス

最適化問題

様々な変数の最も最適な値を導き出す手法。

コールセンターのシフト作成に応用可能。実際ドン・キホーテ等で使われている。

 

☆異常検知

コールログからコンプライアンス違反

入退室ログから異常検知

 

☆解約防止

解約する顧客をグループ分けして変数を導き出す。

WOWOWは「加入したきっかけの番組」だった。

解約阻止の為にそのデータを利用する

 

 

☆レコメンド

リアルタイムログを分析して、次に起こしそうな行動を予測してオペレターをサポート

 

 

基数変換

基数変換とは、異なる進数へ変換する方法。

例えば2進法を10進法へ変換する場合は1101なら左から重みが付くので

1*8+1*4+0*2+1*1となり答えは13になる。

 

逆は商を計算して重みが中に入るなら1を入れて左の桁に進む

トピックモデルとは

文章を「映画」や「歴史」など話題に応じて分類する手法の事です。

LDAとはトピックモデルの一つで、「テキストは複数のトピックの組み合わせである」との直感に基づく考え方。

pythonではgensimというソフトウェアを使って行います。