機械学習

機械学習でのカテゴリ特徴量の扱いについて

投稿日:

こちらを読むと

  • カテゴリ特徴量とは何か?が分かります。
  • 機械学習でカテゴリ特徴量はどう扱うべきか?の概要が分かります。
  • 記事の所要時間は5分です。

カテゴリ特徴量とは

データの特徴量(カラム)が、数値ではなく、選択値で表されるものです。

カテゴリ特徴量の例

カテゴリ特徴量の例としては、”性別”が分かりやすいです。
“性別”という特徴量は、数値ではなく、’男性’ / ‘女性’の選択値があります。

カテゴリ特徴量でないものは、例えばアヤメのデータセットでの”花びらの長さ”です。”花びらの長さ”は、2.34[cm]などの数値で表されます。

カテゴリ特徴量は機械学習モデルで扱えない

カテゴリ特徴量は残念ながら、そのままでは機械学習モデルで扱えません。

機械学習モデルは、入力のデータが数値となっていることが前提であるからです。

そのため、カテゴリ特徴量を数値に変換するため、いろいろな方法がとられます。

カテゴリ特徴量の変換例

ここでは、One-Hotエンコーディングという変換方法を例に挙げます。

変換前のデータが、以下のようになっているとします。

Id 性別
001 女性
002 男性
003 男性

これをOne-Hotエンコーディング変換すると、以下のようになります。

Id性別_女性性別_男性
00110
00201
00301

“Id”は変わりませんが、ヘッダとデータが以下のように変わりました。

ヘッダ:”
 性別” → ”性別_女性”、”性別_男性”
データ:
 ”女性” → ”性別_女性”=1、”性別_男性”=0
 ”男性” → ”性別_女性”=0、”性別_男性”=1

これにより、カテゴリ特徴量を、選択値→値に変換することができました。
値に変換できたので、機械学習モデルに与えて学習させることができます!

この変換方法をOne-Hotエンコーディングといいます。

まとめ

  • カテゴリ特徴量とは何か?が分かりました。
  • 機械学習でカテゴリ特徴量はどう扱うべきか?の概要が分かりました。

今回の記事では、カテゴリ特徴量の変換例としてOne-Hotエンコーディングを挙げましたが、他にもいろいろ変換方法はあります。

他の変換方法についても、別の機会に紹介したいと思います。



-機械学習

執筆者:


  1. […] 前回の記事で、カテゴリ特徴量が何かを紹介しました。カテゴリ特徴量は、数値でない選択肢の値で、そのままでは機械学習モデルで扱えません。 […]

カテゴリ特徴量の変換方法 | エンジニアすみきちのブログ へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

BERT 論文 日本語訳

Table of Contents 要約1 序論2 関連業務2.1 教師なし特徴量ベースのアプローチ 2.2 教師なしファイン・チューニングアプローチ2.3 教師ありデータからの転移学習3 BERTモ …

SIerエンジニアが1年間AIを勉強して感じること

Table of Contents こちらを読むと結論:AI職は、エンジニアの上位職ではなく、別物著者についてAI職と一般エンジニアとの違い機械学習エンジニアが一般エンジニアと違うところ機械学習のモデ …

Kaggle Kernelでライブラリをpip installでインストールする方法

Table of Contents こちらを読むとはじめにKaggle Kernel画面外部ライブラリのインストールまとめ こちらを読むと Kaggle Kernelでライブラリをpip instal …

ロジスティック回帰③ 勾配法

Table of Contents こちらを読むと交差エントロピー誤差関数のおさらい勾配法(勾配降下法)まとめReference こちらを読むと ロジスティック回帰の勾配法でパラメータを決定する手法を …

多クラスロジスティック回帰⑥ モデル出力を確率で

Table of Contents こちらを読むと確率の表し方まとめReference こちらを読むと 多クラスロジスティック回帰について、モデル出力を確率で表す方法が分かります 確率の表し方 前回ま …

Twitterフォロー

Twitterタイムライン