Kaggle 事始め
Python 環境構築
Anaconda よりも pip が主流になりつつあるようなので、pip で欲しいものをインストールする。
pip install pandas numpy sklearn matplotlib seaborn jupyter wheel
pip install tensorflow keras h5py
pip install blaze dask cloudpickle
- Python Extension Packages for Windows: 現在 Windows 版 XGBoost は pip でインストールできないのでビルド済み whl を取得する。
pip install xgboost-0.7-cp36-cp36m-win_amd64.whl
- Kaggle Python docker image : 最強の全部入り Docker イメージ。
ドキュメントブラウザ
- Zeal : Dash の docsets が利用できる。
- Non-Official Zeal User Contributions Repository: Dash User Contributed Docsets はこちらからインスールする。
まとめ記事
- Feature Engineering by HJ van Veen 氏
- kaggle_memo by Nejumi 氏
- Kaggle – 神々に近づくために by threecourse 氏
- General Tips for participating Kaggle Competitions by Mark Peng 氏
- データ分析コンテストの勝者解答から学ぶ by smly 氏
ディレクトリ構成
- Patterns for Research in Machine Learning by Ali Eslami 氏
- データサイエンスプロジェクトのディレクトリ構成どうするか問題 by takuti.me 氏
- by toshi_k 氏
入門動画
- Kaggle入門動画 by Takami Sato 氏
- BigQueryでKaggle入門(動画) by Takami Sato 氏
kaggler-ja Slack
Kaggle のコンペには以下のように private sharing 禁止のルールがあるので注意が必要です。(たとえばこのコンペのルール)
No private sharing outside teams
Privately sharing code or data outside of teams is not permitted. It’s okay to share code if made available to all participants on the forums.
チーム外で協力して1,2,3位の賞金を独占されると破綻するので当然ですね。
Kaggle 社の Wendy Kan 氏のこの記事では 公開前のコードの共有に加えて、議論も禁止しているので、念の為気をつけたほうがいい。
I wanted to remind you that privately sharing/discussing code is against the competition rules. Sharing is allowed if done in the forums/kernels.