機械学習

Google Colaboratoryで大容量ファイルの分析を行う完全準備ガイド

投稿日:

こちらを読むと

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かります
  • 記事の所要時間は5分程度です

やりたいこと

自前でGPUを用意するのが難しい場合、Google Colaboratory(クラウドサービス)のGPUを使う場合があると思います。

その際、画像コンペなどでは、数が多い・容量の大きいファイルをクラウド上にアップロードする必要がありますね。

その際の準備作業を、ここでは説明します。

たとえば

Google Colaboratoryにアクセスして、ファイルを準備する際、まずはGoogle Driveにファイルをアップロードすると思います。

ここでは、例としてtrainフォルダ、testフォルダにそれぞれ大量の画像ファイルが入っており、それを使って機械学習したいとします。

Google ColaboratoryでGoogle Drive上のファイルを参照する際は、こちらのサイトが参考になります。

シンプルにやると失敗する

しかし、大容量ファイルをフォルダごとアップロードしようとすると、ファイルの数が多いので結構時間がかかってしまいます。

ファイルの数が多いとアップロードに時間がかかる

そこで、Google Driveにはフォルダを圧縮したzipをアップロードしておき(フォルダをアップするより10分の1くらいの時間で済む)、Google Colaboratoryでunzipして解凍する手段はどうでしょう。

!unzipコマンドを使えば、解凍は可能ですが、やはり時間がかかります。
そのうえ、セッションが切れると解凍したファイルが消えるため、セッションごとに実行する必要があります。

unzipで解凍すると時間がかかる上にルートに展開されてしまいます。
しかもセッション切れるとやり直し。。。

ベストはGoogle Drive上でzip解凍しておく

上記の問題を解決するためには、Google Drive上で解凍し、置いておくのがベストだと思います。

解凍にはZIP Extractorというクラウドのツールを使います。こちらのサイトが参考になります。

ZIP Extractorで解凍

ではZIP Extractorで解凍していきます。

解凍したいファイルを右クリックすると、ZIP Extractorで解凍できる
確認画面でAuthorizeをクリック

Googleアカウントを選択する
アカウントへのアクセスが求められるので、許可をクリック
ダウンロードが始まる(これはクラウド上に?)
Extract nowをクリックして解凍する
解凍が始まる
無事に解凍された!
test.zipを解凍したものがtest.zip(Unzipped Files)です

まとめ

  • Google Colaboratoryで大容量ファイルを用いた分析を行うにあたり、準備をする方法が分かりました

これで、毎回zip解凍せずとも、Google Drive上の大容量ファイルを扱うことができます!

ただし、Google Drive上の残り容量にはお気をつけください。

Reference

http://www.chrome-life.com/chrome/5904/
https://qiita.com/yoshizaki_kkgk/items/bf01842d1a80c0f9e56c



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

[機械学習] sklearnのグリッドサーチ(Grid Search)実装

Table of Contents こちらを読むとやりたいこと実装例まとめReference こちらを読むと sklearnのグリッドサーチ実装例が分かりますグリッドサーチしたベストパラメータの見方が …

単純パーセプトロン①

Table of Contents こちらを読むと単純パーセプトロンとは式まとめReference こちらを読むと ニューラルネットワークのパーセプトロンの概要を知ることができます 単純パーセプトロン …

多クラスロジスティック回帰② ソフトマックス関数の微分

Table of Contents こちらを読むとソフトマックス関数のおさらいソフトマックス関数の微分まとめReference こちらを読むと 多クラスロジスティック回帰のソフトマックス関数の微分の導 …

多クラスロジスティック回帰⑤ モデル式

Table of Contents こちらを読むとモデルのおさらいモデル出力式の導出(代表値)モデル出力式の導出(全体)まとめReference こちらを読むと 多クラスロジスティック回帰のモデル式の …

多クラスロジスティック回帰③ソフトマックス関数の微分その2

Table of Contents こちらを読むと前回のおさらい ソフトマックス関数の微分(続き) まとめReference こちらを読むと 多クラスロジスティック回帰のモデル式の導出過程が分かります …

Twitterフォロー

Twitterタイムライン