Küsimus:
Väline tuvastamine CSV-failis laius- / pikkuskraadides
Nicolas Raoul
2014-09-30 08:45:45 UTC
view on stackexchange narkive permalink

Mul on tohutu CSV-fail, mis sisaldab erinevate linnade hotellide GPS-punkte. Näide:

  CITY | HOTELL | LATITUDE LONGITUDEChicago | Bellevue | 41,826 | -87,689Chicago | SuperMt | 41,924 | -87,703Chicago | Starhotel | 44,903 | -93.215Chicago | BestW | 41,743 | -87.641Tokyo | CityStay | 30.212 | 128.435  

Kas on olemas programm, mis suudaks tuvastada kõrvalhüppeid? Näiteks on Starhoteli laiuskraad / pikkuskraad selgelt valed, asetades selle sadade kilomeetrite kaugusele teistest hotellidest samas linnas.

Nõuded:

  • Kõrvalekalded tuleks tuvastada põhiklastri hajumise suhtes, näiteks "California" hotellid asuvad üksteisest üsna kaugel, samas kui "East Village" hotellid on kõik üksteisele väga lähedal. Nii et "väljaarvamine" on seotud kogu grupi hajutatusega.
  • Tasuta, ideaaljuhul avatud lähtekoodiga
  • Kiire seadistamine
  • Töötab 300 000 reaga 100 MB CSV fail või sellega samaväärne RDF- või OSM-fail
  • mis tahes operatsioonisüsteem. Ideaalis käsurida. Veebitööriist / API on korras, kui see saab koormusega hakkama.
  • Lõuna- ja põhjapooluse lähedal muutub pikkus vähem oluliseks. Kauguse naiivsel viisil arvutamine sqrt (latitudeDelta² + longitudeDelta²) on siiski parem kui mitte midagi, kuna poolakatel pole palju hotelle.

Lõppeesmärk: tabada tõenäolisi vigu, et saata need ülevaatajatele. 100% täpsust pole vaja.

Kas olete proovinud faili filtreerida saidi gpsvisualizer.com kaudu ja kasutada valikut "Hülgavad kõrvalmõjud"? Ma tean, et see on veebitööriist, mitte tegelikult see, mida te taga ajate.
@Chenmunka: Peaksin iga linna (kümned tuhanded) failid jagama ja esitama individuaalselt, mitte eriti mugav: - / neil ei näi olevat API-d ja ilmselt keelaksin mind, kui prooviksin ...
üks vastus:
Has QUIT--Anony-Mousse
2015-01-04 07:05:25 UTC
view on stackexchange narkive permalink

Kõigepealt võiksite jagada oma andmekogumi linnadeks. See annab tõenäoliselt paremaid tulemusi kui kõike koos hoides.

Siis on tõenäoliselt valitud tööriist ELKI:

  1. see sisaldab palju ja palju väljaarvamise tuvastamise algoritmid. Eelkõige on sellel Local Outlier Factor (wikipedia), mis täpselt püüab hõivata lokaalseid erinevusi
  2. See toetab geodeetilist kaugust erinevate maa mudelid
  3. See võib kiirendamiseks kasutada R-puu indekseid, nii et 300 000 pole probleem (kuid paremate tulemuste saavutamiseks võiksite siiski jagada linnade andmekogumi; ilma selleta hotell nimega "Chicago", kuid koordinaatidega Californias näib siiski koordinaatidest normaalne). Olen juba ise kasutanud 100 000 mitmemõõtmelist andmekogumit; ja olen näinud, kuidas autor kasutab klastrite koostamisel 23 miljonit säutsu ...
  4. Avatud lähtekoodiga, kirjutatud Java keeles.

Võite ka autorid üle vaadata töö kõrvaliste tuvastamise kohandamiseks. See võib olla vajalik, kui soovite töödelda kõik 300 000 faili korraga ning kasutada ka linna ja hotelli veerge. (Enamik meetodeid on mõeldud arvandmete jaoks!) Selle mudeli tõlgenduse põhjal võiksite määratleda konteksti hotellidena samas linnas ja seejärel võrrelda tihedusi.

Schubert, E ., Zimek, A., & Kriegel, HP (2014).
Kohaliku hälbe tuvastamine vaadatakse uuesti üle: üldine vaade lokaalsusest koos rakendustega ruumiliseks, video- ja võrguväliseks tuvastamiseks.
Andmekaevandamine ja teadmiste avastamine, 28 (1), 190–237.

hmm ... mõeldes teie probleemile, võib ka see probleem olla asjakohane, tuvastades liiklusõnnetustest kõrvalekaldeid ja radiaaktiivsuse mõõtmise andmed:

Schubert, E., Zimek, A., & Kriegel, HP (2014).
Üldine hälbe tuvastamine paindliku tuuma tiheduse hinnanguga. tugev>
Ajakirjas Proceedings of the 14.th SIAM International Conference on Data Mining (SDM), Philadelphia, PA.

Ma arvan, et mõlemad tehti ELKI abil, kuna tegemist on samade autoritega ... >


Siit saate teada, kuidas kasutada ELKI-d kõrvalekallete tuvastamiseks:

  1. eraldage oma andmed üheks laiuskraadi ja pikkuskraadi CSV-failiks linna kohta.
  2. laadige alla ELKI JAR ja avage see
  3. konfigureerige sellised parameetrid:

ELKI parameters

  1. lükake klahvi Käivita ülesanne ja peaksite saama selle:

ELKI graph



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...