予測モデル作成における大まかな流れ
- 目的変数の選定
- 開発データとテストデータに分別(以下、開発データに対して)
- 目的変数と説明変数の関係整理
- 説明変数同士の関係整理(非線形モデルのみを扱う場合はすっ飛ばしてOK)
- 欠損値の補完、除去(リストワイズは使わない、特に連続変数を熟考する、離散はカテゴリー化で欠損を扱えばOK)
- 損失関数の計算方法を考える(家賃などは値段に幅があるのでmseをとると、大きい値段に引っ張られる。そーいう時は比率でカバー)
- ハイパーパラメータチューニング(10フォールドを使用)
- 評価方法考える。
- 妥当なら完成