Mul on tohutu CSV-fail, mis sisaldab erinevate linnade hotellide GPS-punkte. Näide:
CITY | HOTELL | LATITUDE LONGITUDEChicago | Bellevue | 41,826 | -87,689Chicago | SuperMt | 41,924 | -87,703Chicago | Starhotel | 44,903 | -93.215Chicago | BestW | 41,743 | -87.641Tokyo | CityStay | 30.212 | 128.435
Kas on olemas programm, mis suudaks tuvastada kõrvalhüppeid? Näiteks on Starhoteli laiuskraad / pikkuskraad selgelt valed, asetades selle sadade kilomeetrite kaugusele teistest hotellidest samas linnas.
Nõuded:
- Kõrvalekalded tuleks tuvastada põhiklastri hajumise suhtes, näiteks "California" hotellid asuvad üksteisest üsna kaugel, samas kui "East Village" hotellid on kõik üksteisele väga lähedal. Nii et "väljaarvamine" on seotud kogu grupi hajutatusega.
- Tasuta, ideaaljuhul avatud lähtekoodiga
- Kiire seadistamine
- Töötab 300 000 reaga 100 MB CSV fail või sellega samaväärne RDF- või OSM-fail
- mis tahes operatsioonisüsteem. Ideaalis käsurida. Veebitööriist / API on korras, kui see saab koormusega hakkama.
- Lõuna- ja põhjapooluse lähedal muutub pikkus vähem oluliseks. Kauguse naiivsel viisil arvutamine
sqrt (latitudeDelta² + longitudeDelta²)
on siiski parem kui mitte midagi, kuna poolakatel pole palju hotelle.
Lõppeesmärk: tabada tõenäolisi vigu, et saata need ülevaatajatele. 100% täpsust pole vaja.