機械学習

Google Colaboratoryで大容量ファイルの分析を行う完全準備ガイド

投稿日:

こちらを読むと

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かります
  • 記事の所要時間は5分程度です

やりたいこと

自前でGPUを用意するのが難しい場合、Google Colaboratory(クラウドサービス)のGPUを使う場合があると思います。

その際、画像コンペなどでは、数が多い・容量の大きいファイルをクラウド上にアップロードする必要がありますね。

その際の準備作業を、ここでは説明します。

たとえば

Google Colaboratoryにアクセスして、ファイルを準備する際、まずはGoogle Driveにファイルをアップロードすると思います。

ここでは、例としてtrainフォルダ、testフォルダにそれぞれ大量の画像ファイルが入っており、それを使って機械学習したいとします。

Google ColaboratoryでGoogle Drive上のファイルを参照する際は、こちらのサイトが参考になります。

シンプルにやると失敗する

しかし、大容量ファイルをフォルダごとアップロードしようとすると、ファイルの数が多いので結構時間がかかってしまいます。

ファイルの数が多いとアップロードに時間がかかる

そこで、Google Driveにはフォルダを圧縮したzipをアップロードしておき(フォルダをアップするより10分の1くらいの時間で済む)、Google Colaboratoryでunzipして解凍する手段はどうでしょう。

!unzipコマンドを使えば、解凍は可能ですが、やはり時間がかかります。
そのうえ、セッションが切れると解凍したファイルが消えるため、セッションごとに実行する必要があります。

unzipで解凍すると時間がかかる上にルートに展開されてしまいます。
しかもセッション切れるとやり直し。。。

ベストはGoogle Drive上でzip解凍しておく

上記の問題を解決するためには、Google Drive上で解凍し、置いておくのがベストだと思います。

解凍にはZIP Extractorというクラウドのツールを使います。こちらのサイトが参考になります。

ZIP Extractorで解凍

ではZIP Extractorで解凍していきます。

解凍したいファイルを右クリックすると、ZIP Extractorで解凍できる
確認画面でAuthorizeをクリック

Googleアカウントを選択する
アカウントへのアクセスが求められるので、許可をクリック
ダウンロードが始まる(これはクラウド上に?)
Extract nowをクリックして解凍する
解凍が始まる
無事に解凍された!
test.zipを解凍したものがtest.zip(Unzipped Files)です

まとめ

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かりました

これで、毎回zip解凍せずとも、Google Drive上の大容量ファイルを扱うことができます!

ただし、Google Drive上の残り容量にはお気をつけください。

Reference

http://www.chrome-life.com/chrome/5904/
https://qiita.com/yoshizaki_kkgk/items/bf01842d1a80c0f9e56c



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

scikit-learn load_iris datasetのデータ観察

Table of Contents こちらを読むとデータ観察のソースコード散布図マトリクスの解説散布図の解説まとめReference こちらを読むと scikit-learnのload_iris da …

ロジスティック回帰④ 勾配法その2

Table of Contents こちらを読むと勾配法の式のおさらい勾配法の式変形シグモイド関数の微分を用いて式変形パラメータの更新式まとめReference こちらを読むと ロジスティック回帰の勾 …

多クラスロジスティック回帰①

Table of Contents こちらを読むと多クラスロジスティック回帰とは何が嬉しいか多クラス分類モデルソフトマックス関数まとめReference こちらを読むと 機械学習多クラスロジスティック …

Kaggle Kernelでライブラリをpip installでインストールする方法

Table of Contents こちらを読むとはじめにKaggle Kernel画面外部ライブラリのインストールまとめ こちらを読むと Kaggle Kernelでライブラリをpip instal …

カテゴリ特徴量の変換方法

Table of Contents こちらを読むとデータ例One-HotエンコーディングダミーコーディングEffectコーディング変換方法のまとめまとめReference こちらを読むと カテゴリ特徴 …