Nors duomenų pasiskirstymas atvaizduoja pagrindinį duomenų taškų dažnį, sklaidą ir formą pagal jų galimas vertes, koordinačių sistemos suteikia fizinį arba matematinį pagrindą, naudojamą tiems taškams erdvėje pavaizduoti ir nustatyti. Supratimas, kaip duomenys pasiskirsto, palyginti su jų fizine padėtimi tinklelyje, leidžia analitikams pašalinti statistinius šališkumus ir sukurti tikslias erdvines vizualizacijas.
Akcentai
Skirstiniai paaiškina jūsų duomenų rinkinio reikšmių matematinį elgesį ir dažnį.
Koordinačių sistemos suteikia fizinę tinklelio infrastruktūrą, reikalingą duomenų vaizdavimui.
Skirstinio transformavimas keičia statistinius rodiklius, tokius kaip asimetrija ir dispersija.
Koordinačių sistemos keitimas keičia erdvinius požiūrius nekeičiant neapdorotų duomenų savybių.
Kas yra Duomenų paskirstymas?
Statistinis profilis, rodantis, kaip dažnai tam tikrame duomenų rinkinyje pasitaiko skirtingos vertės arba rezultatai.
Tai atskleidžia svarbius struktūrinius bruožus, tokius kaip asimetrija, ekscesas ir centrinė tendencija.
Jis keičia savo formą, kai analitikai taiko matematinius filtrus arba transformacijos formules.
Tai lemia, ar duomenų rinkinys atitinka parametriniam testavimui reikalingas prielaidas.
Jis nustato išskirtis ir anomalijas, paryškindamas vertes, kurios nutolsta nuo tankių klasterių.
Jis gali sekti specifinius matematinius modelius, tokius kaip normaliosios, binominės arba Puasono kreivės.
Kas yra Koordinačių sistemos?
Geometriniai atskaitos rėmai, kurie naudoja organizuotas ašis, kad duomenų taškams priskirtų fiksuotas erdvines pozicijas.
Jis remiasi fiksuotu pradžios tašku, iš kurio tęsiasi visi erdviniai matavimai.
„Pandas“, „NumPy“, „Scipy“ ir „R“ statistikos paketai
„Matplotlib“, „D3.js“, „Leaflet“ ir GIS varikliai
Išsamus palyginimas
Matematinė prigimtis ir elgesys
Duomenų paskirstymas daugiausia dėmesio skiria skaičių elgsenai, kartodamas, kaip dažnai tam tikros vertės pasireiškia populiacijoje. Jam svarbūs tokie rodikliai kaip dispersija, standartinis nuokrypis ir tai, ar kreivė turi ilgą uodegą. Priešingai, koordinačių sistemos yra standžios geometrinės struktūros, kurioms nerūpi patys skaičiai. Jos tiesiog siūlo fizines tinklelio linijas, ašis ir pradžios taškus, reikalingus tiems neapdorotiems skaičiams paversti vizualiais žymekliais.
Vaidmuo vizualiniame duomenų vaizdavime
Kuriant diagramą, koordinačių sistema padiktuoja fizinį išdėstymą, nuspręsdama, ar jūsų duomenys pasiskirsto plokščiame Dekarto tinklelyje, ar spirališkai aplink apskritą poliarinį žemėlapį. Duomenų pasiskirstymas lemia, kur vizualinis svoris tenka tame tinklelyje, sukurdamas tankius klasterius arba retas sritis. Analitikas koreguoja koordinačių sistemą, kad diagrama būtų skaitoma, tačiau jis transformuoja duomenų pasiskirstymą, kad pagrindinės tendencijos būtų statistiškai pagrįstos.
Transformacijos metodai ir operacijos
Duomenų pasiskirstymo keitimas apima matematinius mastelio keitimo metodus, tokius kaip logaritminės transformacijos arba Z balų standartizavimas, siekiant pertvarkyti iškreiptą kreivę į subalansuotą normalųjį pasiskirstymą. Koordinačių sistemos modifikavimas reiškia ašių pasukimą, pradžios perkėlimą arba žemėlapio projekcijų keitimą, pavyzdžiui, platumos ir ilgumos konvertavimą į plokščias pikselių koordinates. Vienas metodas pakoreguoja kintamųjų statistines savybes, o kitas pertvarko fizinę žiūrėjimo erdvę.
Analitinės aklosios zonos ir klaidos
Duomenų pasiskirstymo ignoravimas lemia labai ydingus modelius, pavyzdžiui, tiesinių algoritmų taikymas labai iškreiptiems duomenims, kuris pažeidžia standartines regresijos prielaidas. Koordinačių sistemos ignoravimas sukelia erdvinį iškraipymą, dėl kurio žemėlapiai gali iškreipti geografinių regionų dydį arba diagramos neteisingai atvaizduoti atstumus. Analitikai turi laikytis pasiskirstymo taisyklių, kad išsaugotų statistinę teisingumą, ir koordinavimo taisyklių, kad išlaikytų geometrinį tikslumą.
Privalumai ir trūkumai
Duomenų paskirstymas
Privalumai
+Saugiai patvirtina modelio prielaidas
+Pažymi paslėptus duomenų šališkumus
+Izoliuoja ekstremalias statistines anomalijas
+Optimizuoja mašininio mokymosi įvestis
Pasirinkta
−Sunkiau įsivaizduoti intuityviai
−Reikalingi švarūs pradiniai mėginiai
−Gali keistis pogrupiuose
−Reikalingos gilios statistikos žinios
Koordinačių sistemos
Privalumai
+Užtikrina tikslų erdvinį sekimą
+Įgalina intuityvią duomenų vizualizaciją
+Standartizuoja fizinio kartografavimo modelius
+Sklandžiai tvarko daugiamačius maketus
Pasirinkta
−Gali iškreipti tikruosius geografinius dydžius
−Nereikšminga ne erdvinei analizei
−Reikalingas griežtas koordinačių suderinimas
−Padidina renderavimo skaičiavimo išlaidas
Dažni klaidingi įsitikinimai
Mitas
Keičiant diagramos ašis, pasikeičia pagrindinis duomenų pasiskirstymas.
Realybė
Perjungimas iš tiesinės ašies į logaritminę pakeičia pasiskirstymo išvaizdą ekrane, tačiau neapdorotų duomenų reikšmės ir jų statistiniai ryšiai išlieka tie patys. Keičiate peržiūros langą, o ne pačius duomenis.
Mitas
Normalus skirstinys reiškia, kad jūsų duomenų koordinatės visada turi būti centruotos aplink nulį.
Realybė
Normalus skirstinys gali egzistuoti bet kurioje ašies vietoje, nesvarbu, ar jo vidurkis yra 5000, ar minus penkiasdešimt. Skirstinys apibrėžia varpo formą ir simetrišką duomenų sklaidą, visiškai atskirai nuo jo fizinės koordinatės padėties.
Mitas
Geografinės koordinačių sistemos yra idealiai plokščios tinklelio formos.
Realybė
Žemė yra netaisyklinga sfera, o tai reiškia, kad geografinėms koordinatėms ekranuose atvaizduoti reikia naudoti sudėtingus projekcijos matematinius veiksmus. Kiekviena plokščia žemėlapio projekcija neišvengiamai iškreipia braižomų duomenų taškų formą, plotą arba atstumą.
Mitas
Jei sklaidos diagramoje duomenys atrodo susikaupę, tai visada įrodo aukštą statistinę koreliaciją.
Realybė
Vizualiniai klasteriai gali lengvai tapti iliuzija, atsiradusia pasirinkus netinkamą koordinačių sistemos mastelį arba per daug taškų sutalpinus į mažą erdvę. Norint patvirtinti, ar egzistuoja tikras modelis, reikia atlikti tinkamus pasiskirstymo skaičiavimus.
Dažnai užduodami klausimai
Kodėl duomenų mokslininkai naudoja logaritmines transformacijas labai iškreiptuose duomenų pasiskirstymuose?
Dirbant su skirstiniais, turinčiais dideles uodegas, pvz., pajamų lygius ar svetainės lankomumą, kelios milžiniškos vertės suspaudžia likusius duomenis į neįskaitomą grupę. Taikant logaritminę transformaciją, šios ekstremalios vertės suspaudžiamos, o mažesni skaičiai ištempiami, taip sukuriant labiau subalansuotą skirstinį. Šis poslinkis leidžia mašininio mokymosi modeliams daug lengviau atpažinti subtilius modelius, kuriuos kitaip užgožtų didelės išskirtinės vertės.
Kaip netinkamos žemėlapio projekcijos pasirinkimas sugadina erdvinių duomenų vizualizacijas?
Žemėlapio projekcijos perkelia sferines Žemės koordinates į plokščius dvimatčius ekranus. Jei teminiam žemėlapiui pasirinksite tokią projekciją kaip „Mercator“, ji labai padidins toli nuo pusiaujo esančių regionų dydį, todėl tokios vietos kaip Grenlandija atrodys didžiulės, palyginti su Afrika. Šis geometrinis iškraipymas klaidina žiūrovus, todėl jūsų duomenų tankio modeliai poliariniuose regionuose atrodo daug intensyvesni, nei yra iš tikrųjų.
Kuo skiriasi Dekarto koordinačių sistema nuo poliarinės koordinačių sistemos?
Dekarto sistema nustato taškų vietą tinklelyje naudodama statmenus horizontalius ir vertikalius atstumus nuo pradžios taško, paprastai žymimo X ir Y. Poliarinė sistema seka vietas naudodama tiesią atstumą nuo centro ir konkretų sukimosi kampą. Poliarinės tinkleliai puikiai veikia analizuojant ciklinius duomenis, radijo signalus ar sukamaisiais judesiais, o Dekarto tinkleliai yra standartinis pasirinkimas tipiškoms verslo diagramoms.
Ar galite nustatyti duomenų rinkinio pasiskirstymą, jei nežinote jo koordinačių sistemos?
Taip, nes duomenų pasiskirstymas visiškai priklauso nuo paties duomenų rinkinio ryšių, dažnių ir verčių. Skaičių sąrašo vidurkį, dispersiją ir asimetriją galite lengvai apskaičiuoti naudodami neapdorotas statistines formules, niekada jų nebraižydami fizinėje tinklelyje. Koordinačių sistema į paveikslėlį įtraukiama tik tada, kai norite šias vertes pavaizduoti apčiuopiamame vaizdiniame išdėstyme.
Kaip erdvinės koordinatės susijusios su statistinių duomenų pasiskirstymais GIS programinėje įrangoje?
Geografinėse informacinėse sistemose šios dvi sąvokos veikia kartu, kad būtų galima atlikti erdvinę analizę, pavyzdžiui, šilumos žemėlapius. Koordinačių sistema užtikrina, kad kiekvienas duomenų taškas, pvz., nusikaltimo ataskaita ar parduotuvės vieta, tiksliai atitiktų jo realią fizinę vietą. Tada programinė įranga vykdo paskirstymo algoritmus pagal tas koordinates, kad išmatuotų tankį ir atskleistų, kur taškai susitelkia į statistiškai reikšmingas karštąsias zonas.
Ką reiškia, kai analitikas sako, kad duomenys pasiskirsto tolygiai?
Tolygus pasiskirstymas reiškia, kad kiekvienas galimas rezultatas nustatytame diapazone turi tą pačią tikimybę įvykti. Histogramoje tai atrodo kaip plokščia, tiesi linija viršuje, be jokių viršūnių ar įdubimų. Jei koordinačių tinklelyje nubraižysite tolygų pasiskirstymą, jūsų duomenų taškai bus tolygiai paskirstyti erdvėje, nerodydami natūralaus klasterizavimo ar grupavimo elgesio.
Kodėl prieš dirbant su atstumu pagrįstais koordinačių algoritmais, reikia normalizuoti duomenų elementus?
Tokie algoritmai kaip K vidurkių klasterizacija duomenų stulpelius traktuoja kaip erdvines koordinates, kad apskaičiuotų atstumus tarp taškų. Jei vienas stulpelis seka metinius atlyginimus tūkstančiais, o kitas – amžių dviženkliais skaičiais, atlyginimų skalė visiškai dominuos geometriniuose skaičiavimuose. Normalizavus duomenis, visi kintamieji sudėliojami į vienodą skalę, neleidžiant dideliems vienetams iškreipti erdvinių atstumų.
Kaip išskirtinės vertės veikia duomenų pasiskirstymą, palyginti su tuo, kaip jos veikia koordinačių sistemas?
Išskirtinės vertės smarkiai iškreipia duomenų skirstinius, atitraukdamos vidurkį nuo centro ir sukurdamos ilgas, asimetrines uodegas, kurios sugadina parametrinius testus. Tačiau koordinačių sistemoje išskirtinė vertė yra visiškai nekenksminga tinklelio infrastruktūrai. Koordinačių sistema tiesiog siūlo toli esančią ašies koordinatę taškui nubrėžti, likdama neutrali, o statistinis modelis stengiasi apdoroti kraštutinę vertę.
Nuosprendis
Duomenų pasiskirstymo nagrinėjimas, kai jūsų tikslas yra įvertinti duomenų kokybę, patikrinti statistines prielaidas ir suprasti mašininio mokymosi tikimybių profilius. Koordinačių sistemomis galite pasikliauti, kai reikia braižyti erdvines pozicijas, kurti interaktyvius ataskaitų suvestines arba tiksliai nustatyti geografines koordinates.