機械学習

ロジスティック回帰③ 勾配法

投稿日:

こちらを読むと

  • ロジスティック回帰の勾配法でパラメータを決定する手法を理解できます

前回の記事で、ロジスティック回帰の交差エントロピー誤差関数を定義し、これを最小化することで、尤度関数を最大化、すなわち最適なパラメータが設定できることを説明しました。

交差エントロピー誤差関数のおさらい

$$
\begin{eqnarray*}
E({\bf w}, b) &:=& -logL({\bf w}, b) \\
&=& – \sum_{n=1}^N \{t_n log y_n + (1 – t_n) log (1 – y_n)\}
\end{eqnarray*}
$$
~詳解ディープラーニングより抜粋~

上で導出された関数のことを、交差エントロピー誤差関数と呼びます。この関数を最小化することが、もともとの尤度関数を最適化することになります。

こちらの式の解釈ですが、 \(t_n \in \{0, 1\}\)であることを思い出してください。1つの\(n\)に対しては、
$$
\{t_n log y_n + (1 – t_n) log (1 – y_n)\}
$$
の値は\( t_n log y_n または (1 – t_n) log (1 – y_n) \)のどちらかになります。
\(t_n\)は0 or 1のため、この値は
\( log y_n または log (1 – y_n) \)のどちらかになります 。\( y_n \)はロジスティック回帰の出力で、確率で表されるため、0~1の範囲の値になります。
 すなわち、 \( \{t_n log y_n + (1 – t_n) log (1 – y_n)\} \) の値が大きければ大きいほど、”正解”の確率が高まるわけです。よって、交差エントロピー誤差関数が最小化できれば、”正解”の確率を高められる、すなわち最適なパラメータが求められるのです。

今回は交差エントロピー誤差関数を使って、勾配法(勾配降下法)でパラメータを最適化していきます。

勾配法(勾配降下法)

 交差エントロピー誤差関数におけるパラメータは\( {\bf w}, b \)なので、関数を最小化するパラメータを求めるには、「\( {\bf w}, b \)で微分して0になる値」を求める必要があります。しかし、解析的にこの値を求めることは困難です。
 そこで、代わりに勾配法を用いてパラメータを決定する方法があります。勾配法は以下の式で表せます。

$$
{\bf w}^{(k+1)} = {\bf w}^{(k)} – \eta \frac{\partial E({\bf w},b)}{\partial {\bf w}} \\
b^{(k+1)} = b^{(k)} – \eta \frac{\partial E({\bf w},b)}{\partial b}
$$
~詳解ディープラーニングより抜粋~

 ここで、\( \eta \)(イータ)は学習率と呼ばれるハイパーパラメータで、モデルのパラメータの収束しやすさを調整します。この値は0より大きな値で、一般的には0.1や0.01といった適当な小さな値が使われます。この値を大きくしてしまうと、関数の最小値のあたりを行ったり来たりして、最適解が定まらないという状態になります。
 上式によりパラメータが更新されなくなった場合、それは勾配が0になったことを表すので、少なくとも反復学習で探索した範囲では最適な解が求められたことになります。

まとめ

  • ロジスティック回帰の勾配法でパラメータを決定する手法を理解できました

次回は勾配法の式を変形していき、実装に落とし込める形にします。

Reference

詳解ディープラーニング
https://book.mynavi.jp/manatee/books/detail/id=72424



-機械学習

執筆者:


  1. […] 前回の記事で、ロジスティック回帰の交差エントロピー誤差関数について、勾配法で最小化してパラメータを求める手法を説明しました。今回は勾配法の式をさらに変形して、実装に落 […]

ロジスティック回帰④ 勾配法その2 | エンジニアすみきちのブログ へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

単純パーセプトロン①

Table of Contents こちらを読むと単純パーセプトロンとは式まとめReference こちらを読むと ニューラルネットワークのパーセプトロンの概要を知ることができます 単純パーセプトロン …

多クラスロジスティック回帰①

Table of Contents こちらを読むと多クラスロジスティック回帰とは何が嬉しいか多クラス分類モデルソフトマックス関数まとめReference こちらを読むと 機械学習多クラスロジスティック …

機械学習初心者のための入門本ランキング

Table of Contents こちらを読むと評価基準第1位:ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装第2位:Pythonで動かして学ぶ! あたら …

BERT 論文 日本語訳

Table of Contents 要約1 序論2 関連業務2.1 教師なし特徴量ベースのアプローチ 2.2 教師なしファイン・チューニングアプローチ2.3 教師ありデータからの転移学習3 BERTモ …

SIerエンジニアが1年間AIを勉強して感じること

Table of Contents こちらを読むと結論:AI職は、エンジニアの上位職ではなく、別物著者についてAI職と一般エンジニアとの違い機械学習エンジニアが一般エンジニアと違うところ機械学習のモデ …

Twitterフォロー

Twitterタイムライン