こちらを読むと
- カテゴリ特徴量とは何か?が分かります。
- 機械学習でカテゴリ特徴量はどう扱うべきか?の概要が分かります。
- 記事の所要時間は5分です。
カテゴリ特徴量とは
データの特徴量(カラム)が、数値ではなく、選択値で表されるものです。
カテゴリ特徴量の例
カテゴリ特徴量の例としては、”性別”が分かりやすいです。
“性別”という特徴量は、数値ではなく、’男性’ / ‘女性’の選択値があります。
カテゴリ特徴量でないものは、例えばアヤメのデータセットでの”花びらの長さ”です。”花びらの長さ”は、2.34[cm]などの数値で表されます。
カテゴリ特徴量は機械学習モデルで扱えない
カテゴリ特徴量は残念ながら、そのままでは機械学習モデルで扱えません。
機械学習モデルは、入力のデータが数値となっていることが前提であるからです。
そのため、カテゴリ特徴量を数値に変換するため、いろいろな方法がとられます。
カテゴリ特徴量の変換例
ここでは、One-Hotエンコーディングという変換方法を例に挙げます。
変換前のデータが、以下のようになっているとします。
Id | 性別 |
---|---|
001 | 女性 |
002 | 男性 |
003 | 男性 |
これをOne-Hotエンコーディング変換すると、以下のようになります。
Id | 性別_女性 | 性別_男性 |
---|---|---|
001 | 1 | 0 |
002 | 0 | 1 |
003 | 0 | 1 |
“Id”は変わりませんが、ヘッダとデータが以下のように変わりました。
ヘッダ:”
性別” → ”性別_女性”、”性別_男性”
データ:
”女性” → ”性別_女性”=1、”性別_男性”=0
”男性” → ”性別_女性”=0、”性別_男性”=1
これにより、カテゴリ特徴量を、選択値→値に変換することができました。
値に変換できたので、機械学習モデルに与えて学習させることができます!
この変換方法をOne-Hotエンコーディングといいます。
まとめ
- カテゴリ特徴量とは何か?が分かりました。
- 機械学習でカテゴリ特徴量はどう扱うべきか?の概要が分かりました。
今回の記事では、カテゴリ特徴量の変換例としてOne-Hotエンコーディングを挙げましたが、他にもいろいろ変換方法はあります。
他の変換方法についても、別の機会に紹介したいと思います。
[…] 前回の記事で、カテゴリ特徴量が何かを紹介しました。カテゴリ特徴量は、数値でない選択肢の値で、そのままでは機械学習モデルで扱えません。 […]