Kaggle Open Polymer Prediction 2025 銀メダル
私が初めてメダルを獲得した大会です。 この大会は、ポリマーの化学構造から密度、熱伝導率、ガラス転移温度(Tg)などの物性を予測するものでした。 私は以下の3つのポイントに注力しました。 1. 適切なモデルの選択 5つの特性を予測するタスクでしたが、それぞれデータサイズが大きく異なっていました。そこで、データの大きさに応じてモデルを選びました。小規模データには過学習を抑えるため正則化の強いCatBoostを、中規模から大規模データにはXGBoostやLightGBMを用い、CVスコアを比較しながら最適なモデルを選定しました。 2. 仮説検証と効率的な実験 CVが良くてもLBが悪い現象に早期に気づきました。これは公開LBに使われるデータが少なすぎることが原因と判断し、公開LBに依存せず信頼できるCVを重視する“Trust CV戦略”を取りました。 3. アンサンブル学習 汎化性能を高めるためにスタッキングによるアンサンブル学習を行いました。スタッキングの効果を最大化するために、チューニングや特徴量設計も工夫しました。 結果 最終的に予想通り順位の大きな変動(シェイク)が起きました。CVを信じて汎化性能の向上に注力していたため、最終的に順位を160位上げて84位となり、銀メダルを獲得することができました。