hirolog

20代医大生のブログ。日々の情報収集のアウトプット。

プログラミング初心者が機械学習を1ヶ月勉強し続ける #day16

今日の目標

引き続き、Kaggleと格闘しております。ひたすらに難しい、、けど面白いので頑張っていきます!

16日目でやった事

Kaggle入門 Porto Seguroコンペ 

youtube動画でチュートリアルが解説されています。

GCPを使ったKaggleの戦い方が紹介されており、実際に試してみました。

自分のレベルだとまだGCPは使わなくても良さそうです。でも使えるとかなり便利ですね。

Kaggleで勝つ データ分析の技術 第2章

タスクと評価指標についてです。

評価指標の種類とそれを最適化するためのアプローチが書かれています。

ちなみに現在参加しているM5の評価指標はRMSLEです。

M5のnotebookを読み漁る

よくわからないながらも定石通り、notebookをmostvotesで並び替えて上から読んでいっています。

最初はEDAを2、3個読みつつ、ポイントをノートでまとめていきました。

次にYakovlev氏が書いている一連のnotebookを読み進めていきました。

最初に元データのcsvファイルから特微量を抽出する「Simple FE」

lagについて言及した「Lags features」

Mean encodingなど特微量の作成についての「Custom features」

最後にそれらを集めた「Three shades of Dark」(これは途中まで、明日続きを。)

1行1行理解していくだけでもめっちゃ時間がかかりますが、ただ本を眺めているだけよりも圧倒的に勉強になります。

対応する部分を「kaggleで勝つデータ分析の技術」で調べたりググったりで結構対応できています。

最近久々にめっちゃ英語の文章読んでるなあ。。

にしても疲れた〜〜。のでゆっくり寝て休みます。

明日に向けて

明日も引き続きKaggleやります。

特微量エンジニアリングについてももっと勉強しよう。