hirolog

20代医大生のブログ。日々の情報収集のアウトプット。

プログラミング初心者が機械学習を1ヶ月勉強し続ける #day15

今日の目標

今日は1ヶ月のゴールとして掲げたKaggleがどのようなものなのかを勉強しようと思います。「Kaggleで勝つ データ分析の技術」を読む予定です。

15日目でやった事

Kaggleで勝つ データ分析の技術 第1章

第1章ではKaggleって何?というところから、参加から提出までの流れ、参加の意義、実際にどのように分析をしていくかの流れが解説されています。分析の流れはKaggleのタイタニックチュートリアルを用いて解説されています。

Kaggleについて色々調べた

主にこちらのサイトに載っているものを軸にみていきました。

/kaggle初心者ガイド - Kaggler-ja Wiki

Kaggleに登録して、タイタニックをやってみた

自分もタイタニックを用いて実際に分析してみました。一応scikit-leanは勉強したのでその知識を使いながら、実際に試してみました。

更新するたびに順位が上がる感覚は結構気持ちよくて、ハマってしまうかもしれません。。

Competitionを探してみた

一通り、現在どのようなコンペが行われているかを見たところ、画像系のコンペが多く、DeepLearningを用いないと難しそうでした。面白そうなコンペもたくさんあり、特に病理画像からグリソンスコアを推測するPANDAはとても興味がありましたが、いつになったらこのレベルに到達できるのだろう、というくらい難しそうでした。。

テーブルデータを用いたコンペとしては、「M5 Forecasting -Accuracy」があり、内容としてはウォルマートの時系列売上データを用いて将来の売上を予測するというものです。

データサイズも大きく、難しそうでしたが、一旦取り組んでみたいと思います。

まずはEDAを読んでみましたが、分析のレベルが非常にレベルが高くてビビりました。とにかく内容を理解するのに一苦労です。

機械学習をはじめて2週間でやることではない気もしますが、焦らずじっくり取り組んでみようと思います。

明日に向けて

とはいえ、いきなりM5にいくのはあまりにも無理があるので、

「Kaggleで勝つデータ分析の技術」を読みつつ、明日はyoutube動画でチュートリアルが解説されている

Kaggle入門 Porto Seguroコンペ Part.1 (イントロ~GCP登録)

https://www.youtube.com/watch?v=NHQTw-ORcSQ&list=PLkBjLQIGEjJnbde-czDnP9kvF9-Um5q6Q

を実装していこうと思います。

残り2週間ちょっとの時間の使い方迷います。。

本当はcouseraのディープラーニングをやろうと思っていたのですが、それで1週間~10日はかかると思われ、そちらをやるとKaggleの時間が取れなくなりそうです。

とりあえず5月一杯はKaggleに全力で取り組んでみて、このまま突っ走れそうだったらKaggleを継続、一度やることを変えたくなったらディープラーニングにいこうと思います。