https://www.kaggle.com/competitions/foursquare-location-matching/discussion/336462
https://twitter.com/gamella/status/1544621373414604800?s=20&t=Lo8mX3luy4hu_6rFtrFs9g
約60万のエントリー(チェックインアプリのチェックインの情報で緯度・経度、名前、住所などの情報が含まれている)が与えられて、同じ場所を答えるコンペ
データ数が約60万と多いがcudfを使うことでknnなどが簡単にでき、例えば緯度経度で近い順に100エントリーなど簡単に取ってくることができる。
学習データで、knnでそれぞれの点で100エントリーなどマッチングし、正例と負例のラベルをつけた後、勾配ブースティングやBERTで判定する解法が主流
学習データの数十%がtestに含まれたというリークがあった。
私は次のようにデータタブに、testデータとtrainデータに重複がないと書かれている以上、ルールとしておかしいのではないかと思っている。