Felaktiga Data: Waterjet etsning datamängder (5 / 13 steg)
Steg 5: Rengör och konvertera Data
De råa datamängder som jag fått var i olika format: JSON, CSV och även TSV. Fälten är ostadig, data kan vara glitchy och mitt mål är att sluta med samma format för varje datamängd, som jag i slutändan mappas till vektor filer med hjälp av OpenFrameworks, en populär online C++ toolkit.
Ibland kunde jag åstadkomma detta med ett kalkylprogram som Excel, nummer eller min nya favorit, KaliedaGraph.
Andra gånger skulle jag piska min egen data konvertering kod i Python, som är baserad på min SF_Geocoder kod. Fördelen med denna kod är att det kommer att ta korsningar i någon stad och använda Google Maps API för att generera lat/byxa.
Formatet jag slutligen genereras för varje datamängd var en standard CSV med:
kolumn 1 = primär deskriptor (till exempel ett ID-nummer)
kolumn 2 = primär deskriptor (som ett datum)
kolumn 3 = latitud
kolumn 4 = longitud
kolumn 5 = storlek
Fältet storlek är ofta ignoreras i datamängder som UFO-observationer och San Francisco vräkningar men är använda för att förstora figurerna från datamängder som amerikanska fängelser, där storleken är befolkningen i fängelset.