hirolog

20代医大生のブログ。日々の情報収集のアウトプット。

プログラミング初心者が機械学習を1ヶ月勉強し続ける #day17

今日の目標

今日はKaggleへ向けた勉強を。Kaggleで勝つデータ分析の技術を読み進めていきます。

17日目でやった事

Kaggleで勝つデータ分析の技術

かかった時間:9時間

難易度:★★★☆☆

第3章:特微量の作成

kaggleに焦点をあてた本だけあった特微量についての情報がかなり充実しています。取り組んでいるコンペM5でも活用できそうな特微量作成の手法がたくさんありました。特に時系列データの扱いについてページを割いて書かれてあったのが非常に勉強になりました。

特に使えそうだなと感じたのは、特定の日に関する二値変量を取ること、イベントに関するラグ特微量、clipping、複数の変数の組み合わせあたりでしょうか。

第4章:モデルの作成

kaggleで人気のGBDTについての解説が多かったです。パラメータについては6章で。

第5章:モデルの評価

クロスバリデーションについて丁寧に説明されています。特に、時系列データにおけるクロスバリデーションが詳しく解説されていたのが非常に勉強になりました。実際の分析コンペでどのようにクロスバリデーションを行ったかも解説されていて、内容の充実度がすごいです。

第6章:モデルのチューニング

GBDTのパラメータが勉強になりました。今回はここまで手が回るかな。。特微量選択についても触れています。

第7章:アンサンブル

スタッキングやアンサンブルする際のポイント、注意点など。実際のコンペの例もあってわかりやすいです。

感想

まさにkaggleの教科書です。ここに書いてあることを自分で選択して、データに適応できるようなれば間違いなく上位を狙えるくらい「武器」が揃っている本でした。

kaggleをやるなら必ず横に置いておきたい、そんな本です。

超おすすめ。

明日に向けて

時系列データに関してもう少し知見を深めたいので、Udemyのpython for  time series data analysis」を進めます。