プログラミング初心者が機械学習を1ヶ月勉強し続ける #day16
今日の目標
引き続き、Kaggleと格闘しております。ひたすらに難しい、、けど面白いので頑張っていきます!
16日目でやった事
Kaggle入門 Porto Seguroコンペ
GCPを使ったKaggleの戦い方が紹介されており、実際に試してみました。
自分のレベルだとまだGCPは使わなくても良さそうです。でも使えるとかなり便利ですね。
Kaggleで勝つ データ分析の技術 第2章
タスクと評価指標についてです。
評価指標の種類とそれを最適化するためのアプローチが書かれています。
ちなみに現在参加しているM5の評価指標はRMSLEです。
M5のnotebookを読み漁る
よくわからないながらも定石通り、notebookをmostvotesで並び替えて上から読んでいっています。
最初はEDAを2、3個読みつつ、ポイントをノートでまとめていきました。
次にYakovlev氏が書いている一連のnotebookを読み進めていきました。
最初に元データのcsvファイルから特微量を抽出する「Simple FE」
lagについて言及した「Lags features」
Mean encodingなど特微量の作成についての「Custom features」
最後にそれらを集めた「Three shades of Dark」(これは途中まで、明日続きを。)
1行1行理解していくだけでもめっちゃ時間がかかりますが、ただ本を眺めているだけよりも圧倒的に勉強になります。
対応する部分を「kaggleで勝つデータ分析の技術」で調べたりググったりで結構対応できています。
最近久々にめっちゃ英語の文章読んでるなあ。。
にしても疲れた〜〜。のでゆっくり寝て休みます。
明日に向けて
明日も引き続きKaggleやります。
特微量エンジニアリングについてももっと勉強しよう。