2年間放置したKaggleの門を再び叩く

kaggle参入障壁

kaggleこわい。
特に何もしらないけど、なんかデータサイエンティストの猛者が集まって盛り上がっているところと勝手に思っているから近寄りがたい。

色々と勇気付けられる記事

Kaggleを実施する際に無理矢理GPUを購入しなくていい。
GPUも買おう買おうと思っていますが、買わなくていいことで気分が穏やかに。
みんな自分のGPU持っててゴリゴリやっているのかと思ったらそうじゃないみたいで安心した。

プロジェクトを選ぶ

何か楽しそうなものを。
メルカリのもう終わってるけど、やってみる。

まずOverviewを理解して、他の人がやってるKernelDiscussionを読む。
その後、自分のKernel作成しようと思う。
学習するのは通常そういう順番だと思っている。

メルカリのプロジェクト

説明

最適価格を見つけるにはどうすればいいか?を計算すればいいんだな。

Note that, because of the public nature of this data, this competition is a “Kernels Only” competition. In the second stage of the challenge, files will only be available through Kernels and you will not be able to modify your approach in response to new data. Read more details in the data tab and Kernels FAQ page.

Kernel Onlyの意味はわからないけど結果の提出はKernelでやらないといけないということらしい。
ダウンロードしてローカルでやることはできないよと。

評価方法

Root Mean Squared Logarithmic Errorを使う。
この評価方法知らない…

kaggle_式

ϵがRMSLEの結果。
nがデータセットの数。
piが予測した価格。
ai実際の価格。
log(x)xの自然対数。

データ

train.tsv, test.tsv

メルカリで出品している商品のデータ

sample_submission.csv

正しい形式の提出フォーマット

注意
このプロジェクトは2つのステージがある。
ステージ1では普通のプロジェクトと同様にkernelでトレーニングしてテストする。
テストの時のデータ数は700k。
ステージ2ではテストデータを3.5Mまで増やす。
ステージ1でトレーニングしたものと同じものを使わなくてはいけない。

道のりは険しそうだけど、とりあえず門を叩くところまで。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です