機械学習

Google Colaboratoryで大容量ファイルの分析を行う完全準備ガイド

投稿日:

こちらを読むと

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かります
  • 記事の所要時間は5分程度です

やりたいこと

自前でGPUを用意するのが難しい場合、Google Colaboratory(クラウドサービス)のGPUを使う場合があると思います。

その際、画像コンペなどでは、数が多い・容量の大きいファイルをクラウド上にアップロードする必要がありますね。

その際の準備作業を、ここでは説明します。

たとえば

Google Colaboratoryにアクセスして、ファイルを準備する際、まずはGoogle Driveにファイルをアップロードすると思います。

ここでは、例としてtrainフォルダ、testフォルダにそれぞれ大量の画像ファイルが入っており、それを使って機械学習したいとします。

Google ColaboratoryでGoogle Drive上のファイルを参照する際は、こちらのサイトが参考になります。

シンプルにやると失敗する

しかし、大容量ファイルをフォルダごとアップロードしようとすると、ファイルの数が多いので結構時間がかかってしまいます。

ファイルの数が多いとアップロードに時間がかかる

そこで、Google Driveにはフォルダを圧縮したzipをアップロードしておき(フォルダをアップするより10分の1くらいの時間で済む)、Google Colaboratoryでunzipして解凍する手段はどうでしょう。

!unzipコマンドを使えば、解凍は可能ですが、やはり時間がかかります。
そのうえ、セッションが切れると解凍したファイルが消えるため、セッションごとに実行する必要があります。

unzipで解凍すると時間がかかる上にルートに展開されてしまいます。
しかもセッション切れるとやり直し。。。

ベストはGoogle Drive上でzip解凍しておく

上記の問題を解決するためには、Google Drive上で解凍し、置いておくのがベストだと思います。

解凍にはZIP Extractorというクラウドのツールを使います。こちらのサイトが参考になります。

ZIP Extractorで解凍

ではZIP Extractorで解凍していきます。

解凍したいファイルを右クリックすると、ZIP Extractorで解凍できる
確認画面でAuthorizeをクリック

Googleアカウントを選択する
アカウントへのアクセスが求められるので、許可をクリック
ダウンロードが始まる(これはクラウド上に?)
Extract nowをクリックして解凍する
解凍が始まる
無事に解凍された!
test.zipを解凍したものがtest.zip(Unzipped Files)です

まとめ

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かりました

これで、毎回zip解凍せずとも、Google Drive上の大容量ファイルを扱うことができます!

ただし、Google Drive上の残り容量にはお気をつけください。

Reference

http://www.chrome-life.com/chrome/5904/
https://qiita.com/yoshizaki_kkgk/items/bf01842d1a80c0f9e56c



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

[機械学習] sklearnのグリッドサーチ(Grid Search)について

Table of Contents こちらを読むとグリッドサーチとはグリッドサーチの使い方まとめ こちらを読むと 機械学習のグリッドサーチ(Grid Search)の概要が分かりますsklearnのグ …

ロジスティック回帰② アルゴリズム

Table of Contents こちらを読むと尤度関数を用いた最尤推定まとめReference こちらを読むと ロジスティック回帰のアルゴリズムを理解できます 前回の記事で、ロジスティック回帰はシ …

多クラスロジスティック回帰⑥ モデル出力を確率で

Table of Contents こちらを読むと確率の表し方まとめReference こちらを読むと 多クラスロジスティック回帰について、モデル出力を確率で表す方法が分かります 確率の表し方 前回ま …

多クラスロジスティック回帰①

Table of Contents こちらを読むと多クラスロジスティック回帰とは何が嬉しいか多クラス分類モデルソフトマックス関数まとめReference こちらを読むと 機械学習多クラスロジスティック …

機械学習でのカテゴリ特徴量の扱いについて

Table of Contents こちらを読むとカテゴリ特徴量とはカテゴリ特徴量の例カテゴリ特徴量は機械学習モデルで扱えないカテゴリ特徴量の変換例まとめ こちらを読むと カテゴリ特徴量とは何か?が分 …

Twitterフォロー

Twitterタイムライン