kaggleに登録したはいいが、手を動かしはじめられない人が見るページ

何度kaggleをやろうと思い立ったことか!

ただ、一人ではどうにも進めるのにかなりパワーが必要になってしまう。

そんな時、あなたはこうやりなさい!と支持されたいマゾな方向けのページです。

(くれぐれサディストの方はみないでください。怖いです。)

かくいう私も何からやればいいか手をつけられなかったので、自分自身のためにまとめました。

神々がこの広大なネットの世界に残していった痕跡を元に書いています。

まずはGoogle Cloud Platform(GCP)に登録する!

まず、この動画に頼りっきりの動画です。

この動画の通り、tkmさんのおっしゃる通りに話を進めていきます。

麻雀のようなものという発言があるので、やり込んだら鍛えられることを信じましょう!(信者)

まずこちらから、GCPに登録しましょう!

クレジットカード情報など諸所登録が完了したら次は…

Compute Engineを立ち上げる!

少し時間がかかりましたが、立ち上がりました。

動画に習って、8コア30GBのubuntu16(100GB)のものをつくりました。贅沢だそうですが…

中期で戦う場合は60GBぐらいほしいとのことなので、実際に戦う時はそれぐらいにしましょう!

Compute Engine

Strageを作る!

この辺りは動画をみながらやっていくと問題なく進めることができます。

Strage

inputのフォルダも作成して、そこにデータファイルを保存しておきましょう!

Bitbucketに登録する!

githubでprivate repo作れるなら登録する必要はないんですが、無料版を使っている人は登録しましょう!

私は、これを機にgithubをdawngradeしました。

ここで忘れていけなさそうなのが、フォーラムで公開しないと、githubの公開リポジトリにpushしたらいけないということでしょうか。

ここまででGCPへssh接続することができるようになります。

ubuntuへライブラリをインストールする!

sudo apt install git build-essential tmux htop
sudo apt update

(私はvim派なので、というかvimしか使ったことないのでemacs?は一旦飛ばしています。)

そして、anacondaもインストールします。

wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh
sh Anaconda3-5.2.0-Linux-x86_64.sh

これで後は、流れに沿ってインストールするだけです。

そして、Bitbucketのレポジトリーをcloneして、

mkdir input

でデータの保管場所を作ります。

そこにGCP上に保管したデータを持ってくるんですが、gsutilというコマンドを使います。

今回はじめてGCPを使ったがために、はじめてみましたが使っていきたい。

ちなみに、gsutilの説明は以下の通り。

gsutil は、コマンドラインから Cloud Storage にアクセスできる Python アプリケーションです。gsutil を使用すると、次のような、バケットやオブジェクトの幅広い管理作業を行うことができます。

以下のコマンドでStorageからファイルを持ってくることができます。

gsutil -m cp -r gs://ストレージ名/input/* input/

で無事にデータファイルの移行が終わりました。

動画の冒頭でコマンドでデータファイルを移動させた方が早いというコメントがあったのですが、その場合はローカルからubuntuにただアップするだけだと思うんですが、その場合strageを使っている意味がなくなってしまう…(何か他の用途があるでしょう)

次に7z形式のファイルを解凍するライブラリを入れます。

sudo apt-get install p7zip-full

そして、解凍していきます。

7z x ファイル名

これが完了すると一通りコーディングの準備は整います。

for文とかの残りの長さを表示してくれるtqdmを入れておきましょう。

pip install tqdm

xgboostというのがすごい威力らしいので(何かわかっていないですが)インストールします。

pip install xgboost

練習のために、後はとにかく動画の通りにコーディングしていきましょう。

そして、一通りコーディングを真似てみて、実行結果をGCPからStorageへ送ります。(これもscpとかでやると早いらしい。)

gsutil -m cp result_tmp/submit.csv(gcpのファイルpath) gs://kaggle-porto/submits/submit_1017_first.csv(storageの保管場所)

submitする!

後はsubmit画面に出力されたデータをドラッグするだけ!

submit

これでkaggle lifeをスタートできそうですね!

次回は動画中に出てきて不明だったところを調べていこうと思います!

「kaggleに登録したはいいが、手を動かしはじめられない人が見るページ」への1件のフィードバック

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です