機械学習

多クラスロジスティック回帰② ソフトマックス関数の微分

投稿日:2019年2月13日 更新日:

こちらを読むと

  • 多クラスロジスティック回帰のソフトマックス関数の微分の導出過程が分かります。

前回の記事で、多クラスロジスティック回帰の概要を説明しました。今回は、モデル式の導出まで行い、最適解を求める下準備をしたいと思います。

ソフトマックス関数のおさらい

ソフトマックス関数は、多クラス分類を可能にする式で、n次元ベクトル\({\bf x}\)に対して以下のように表されるのでした。
$$
softmax({\bf x})_i = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}} (i=1,2,…,n)
$$

 ここで気を付けてほしいのが、分子と分母の\(x\)の添え字が異なっている点です。分子は\(i\)で、1つの項目を表しているものです。この関数自体の添え字ということでしょうか。分母は\(j\)で、全体の総和に使っているものです。\(j\)=1~nまで加算するときの一時変数ですね。
 ちなみに私は、最初この2つの区別がついていなくて、式の理解をするのに1時間くらいかけてしまいました 笑。

ソフトマックス関数は、数式を見てもらうとわかりますが、「それ / 全体」を表しており、入力が\(x_i\)のときに出力が発火する確率を表しています。なぜ入力をのものの\(x\)ではなく、\(e^x\)を使うかは、「発火する」「発火しない」の差を明確にするためです。\(x\)が大きくなるにつれ、\(e^x\)はより大きくなります。

ソフトマックス関数の微分

入力を\(x_i\)、出力を\(y_i\) (\(i\)=1,2, …n)とすると、
$$
\begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{pmatrix}
=
\frac{1}{\sum_{j=1}^n e^{x_j}}
\begin{pmatrix}
e^{x_1} \\
e^{x_2} \\
\vdots \\
e^{x_n}
\end{pmatrix}
$$

と表せます。またさらに右辺の分母を
$$
Z := \sum_{j=1}^n e^{x_j}
$$

とおいたとき、ソフトマックス関数の微分を求めると、まず\(i\)=\(j\)では
$$
\frac{\partial y_i }{\partial x_i} = \frac{e^{x_i}Z – e^{x_i}e^{x_i}}{Z^2} = y_i(1 – y_i)
$$
となり、\(i\)≠\(j\)では
$$
-y_iy_j
$$

となります。
この式変換が分かりにくいので、次回はもう少し詳細に説明したいと思います。

まとめ

  • 多クラスロジスティック回帰のモデル式のソフトマックス関数の微分を途中まで説明しました。

Reference

詳解ディープラーニング
https://book.mynavi.jp/manatee/books/detail/id=72424



-機械学習

執筆者:


  1. […] 前回の記事で、多クラスロジスティック回帰のモデル式の導出過程を途中まで記載しました。今回はその続きです。 […]

comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

機械学習初心者のための入門本ランキング

Table of Contents こちらを読むと評価基準第1位:ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装第2位:Pythonで動かして学ぶ! あたら …

ロジスティック回帰② アルゴリズム

Table of Contents こちらを読むと尤度関数を用いた最尤推定まとめReference こちらを読むと ロジスティック回帰のアルゴリズムを理解できます 前回の記事で、ロジスティック回帰はシ …

カテゴリ特徴量の変換方法

Table of Contents こちらを読むとデータ例One-HotエンコーディングダミーコーディングEffectコーディング変換方法のまとめまとめReference こちらを読むと カテゴリ特徴 …

Kaggle Kernelでライブラリをpip installでインストールする方法

Table of Contents こちらを読むとはじめにKaggle Kernel画面外部ライブラリのインストールまとめ こちらを読むと Kaggle Kernelでライブラリをpip instal …

多クラスロジスティック回帰⑥ モデル出力を確率で

Table of Contents こちらを読むと確率の表し方まとめReference こちらを読むと 多クラスロジスティック回帰について、モデル出力を確率で表す方法が分かります 確率の表し方 前回ま …

Twitterフォロー

Twitterタイムライン