プログラミング初心者が機械学習を1ヶ月勉強し続ける #day15
今日の目標
今日は1ヶ月のゴールとして掲げたKaggleがどのようなものなのかを勉強しようと思います。「Kaggleで勝つ データ分析の技術」を読む予定です。
15日目でやった事
Kaggleで勝つ データ分析の技術 第1章
第1章ではKaggleって何?というところから、参加から提出までの流れ、参加の意義、実際にどのように分析をしていくかの流れが解説されています。分析の流れはKaggleのタイタニックチュートリアルを用いて解説されています。
Kaggleについて色々調べた
主にこちらのサイトに載っているものを軸にみていきました。
/kaggle初心者ガイド - Kaggler-ja Wiki
Kaggleに登録して、タイタニックをやってみた
自分もタイタニックを用いて実際に分析してみました。一応scikit-leanは勉強したのでその知識を使いながら、実際に試してみました。
更新するたびに順位が上がる感覚は結構気持ちよくて、ハマってしまうかもしれません。。
Competitionを探してみた
一通り、現在どのようなコンペが行われているかを見たところ、画像系のコンペが多く、DeepLearningを用いないと難しそうでした。面白そうなコンペもたくさんあり、特に病理画像からグリソンスコアを推測するPANDAはとても興味がありましたが、いつになったらこのレベルに到達できるのだろう、というくらい難しそうでした。。
テーブルデータを用いたコンペとしては、「M5 Forecasting -Accuracy」があり、内容としてはウォルマートの時系列売上データを用いて将来の売上を予測するというものです。
データサイズも大きく、難しそうでしたが、一旦取り組んでみたいと思います。
まずはEDAを読んでみましたが、分析のレベルが非常にレベルが高くてビビりました。とにかく内容を理解するのに一苦労です。
機械学習をはじめて2週間でやることではない気もしますが、焦らずじっくり取り組んでみようと思います。
明日に向けて
とはいえ、いきなりM5にいくのはあまりにも無理があるので、
「Kaggleで勝つデータ分析の技術」を読みつつ、明日はyoutube動画でチュートリアルが解説されている
Kaggle入門 Porto Seguroコンペ Part.1 (イントロ~GCP登録)
https://www.youtube.com/watch?v=NHQTw-ORcSQ&list=PLkBjLQIGEjJnbde-czDnP9kvF9-Um5q6Q
を実装していこうと思います。
残り2週間ちょっとの時間の使い方迷います。。
本当はcouseraのディープラーニングをやろうと思っていたのですが、それで1週間~10日はかかると思われ、そちらをやるとKaggleの時間が取れなくなりそうです。
とりあえず5月一杯はKaggleに全力で取り組んでみて、このまま突っ走れそうだったらKaggleを継続、一度やることを変えたくなったらディープラーニングにいこうと思います。