機械学習

scikit-learn load_iris datasetのデータ観察

投稿日:

こちらを読むと

  • scikit-learnのload_iris datasetのデータ観察の初歩が分かります。
  • 特に散布図マトリクス(scatter_matrix)の解説をします。
  • 記事の所要時間は15分です。

前回のブログで、load_irisのdatasetを解説しました。
今回はこのデータを観察していきます。

データ観察のソースコード

一番最後のコードは散布図マトリクス(scatter_matrix)を表しています。こちらは初見だとよくわからないと思うので、特に解説していきます。

散布図マトリクスの解説

横軸と縦軸、それぞれに、特徴量が並びます。

横軸は左から、がくの長さ/額の幅/花びらの長さ/花びらの幅、の順番です。
縦軸は上から、がくの長さ/額の幅/花びらの長さ/花びらの幅、の順番です。

そうなると、例えば一番左下のセルは、がくの長さ-花びらの幅の組み合わせになり、その2つをそれぞれ横軸、縦軸にとった散布図が表示されます。

左下のセル、 がくの長さ-花びらの幅の 散布図

マトリクスの対角方向に対称なセルは、横軸と縦軸の向きが変わるだけで同じ組み合わせなので、横と縦の方向をひっくり返したような形になっています。
実質は同じ情報を表しています。


マトリクスの対角方向に対称なセルは 同じ情報を表す

横軸と縦軸が同じ特徴量となるセル、例えば、がくの長さ-がくの長さの組み合わせのセルは、散布図を描いても意味がないため、代わりにヒストグラムが表示されます。

同じ特徴量の組み合わせとなるセルは、
ヒストグラムが表示される

散布図の解説

例えばがくの長さ-花びらの幅の組み合わせだと、以下のような散布図になっています。

1点が1つのアヤメのデータを表しています。

ある1つのアヤメについて、がくの長さと花びらの幅によって、散布図のどの位置にプロットするかが決まり、アヤメの種類によって色が決まります。

アヤメの種類によって、散布図の色が異なる

この散布図は、青/赤/緑が、わりときれいに分かれているので、がくの長さと花びらの幅の組み合わせは、アヤメの分類に使えそうだと判断できるわけです。

では以下の、がくの長さ-がくの幅の組み合わせはどうでしょうか。

アヤメの種類が分類しきれなさそうな特徴量の組み合わせ

青色のアヤメはきれいに分かれていますが、赤と緑はきれいに分かれているとは言い難いです。

したがって、この特徴量の組み合わせでは分類に使えない可能性があるため、どちらかの特徴量を使わない方が良いかもしれない、という検討ができるわけですね。

まとめ

  • scikit-learnのload_iris datasetのデータ観察の初歩が分かりました。
  • 特に散布図マトリクス(scatter_matrix)の解説をしました。

機械学習のモデルを作成する前に、データの分析は必須ですが、散布図マトリクスは道具の一つとして使えそうですね。

こういうデータの分析に使える武器を増やしていけば、使用するデータの取捨選択の質を上げることができそうです!

Reference

Pythonではじめる機械学習
https://www.oreilly.co.jp/books/9784873117980/



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

ロジスティック回帰①

Table of Contents こちらを読むとロジスティック回帰とは何が嬉しいかシグモイド関数モデル式まとめReference こちらを読むと 機械学習のロジスティック回帰の概要を知ることができま …

Kaggle Kernelでライブラリをpip installでインストールする方法

Table of Contents こちらを読むとはじめにKaggle Kernel画面外部ライブラリのインストールまとめ こちらを読むと Kaggle Kernelでライブラリをpip instal …

[機械学習] sklearnのグリッドサーチ(Grid Search)実装

Table of Contents こちらを読むとやりたいこと実装例まとめReference こちらを読むと sklearnのグリッドサーチ実装例が分かりますグリッドサーチしたベストパラメータの見方が …

Google Colaboratoryで大容量ファイルの分析を行う完全準備ガイド

Table of Contents こちらを読むとやりたいことたとえばシンプルにやると失敗するベストはGoogle Drive上でzip解凍しておくZIP Extractorで解凍まとめReferen …

scikit-learn load_iris datasetのまとめ

Table of Contents こちらを読むと何がしたいかload_iris datasetまとめ こちらを読むと scikit-learnのload_iris datasetについて、詳細が分か …

Twitterフォロー

Twitterタイムライン