こちらを読むと
- Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かります
- 記事の所要時間は5分程度です
やりたいこと
自前でGPUを用意するのが難しい場合、Google Colaboratory(クラウドサービス)のGPUを使う場合があると思います。
その際、画像コンペなどでは、数が多い・容量の大きいファイルをクラウド上にアップロードする必要がありますね。
その際の準備作業を、ここでは説明します。
たとえば
Google Colaboratoryにアクセスして、ファイルを準備する際、まずはGoogle Driveにファイルをアップロードすると思います。
ここでは、例としてtrainフォルダ、testフォルダにそれぞれ大量の画像ファイルが入っており、それを使って機械学習したいとします。
Google ColaboratoryでGoogle Drive上のファイルを参照する際は、こちらのサイトが参考になります。
シンプルにやると失敗する
しかし、大容量ファイルをフォルダごとアップロードしようとすると、ファイルの数が多いので結構時間がかかってしまいます。
そこで、Google Driveにはフォルダを圧縮したzipをアップロードしておき(フォルダをアップするより10分の1くらいの時間で済む)、Google Colaboratoryでunzipして解凍する手段はどうでしょう。
!unzipコマンドを使えば、解凍は可能ですが、やはり時間がかかります。
そのうえ、セッションが切れると解凍したファイルが消えるため、セッションごとに実行する必要があります。
ベストはGoogle Drive上でzip解凍しておく
上記の問題を解決するためには、Google Drive上で解凍し、置いておくのがベストだと思います。
解凍にはZIP Extractorというクラウドのツールを使います。こちらのサイトが参考になります。
ZIP Extractorで解凍
ではZIP Extractorで解凍していきます。
まとめ
- Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かりました
これで、毎回zip解凍せずとも、Google Drive上の大容量ファイルを扱うことができます!
ただし、Google Drive上の残り容量にはお気をつけください。
Reference
http://www.chrome-life.com/chrome/5904/
https://qiita.com/yoshizaki_kkgk/items/bf01842d1a80c0f9e56c