Suspaudimo efektyvumas ir interpretuojamumo praradimas
Duomenų specialistai dažnai susiduria su sudėtingu kompromisu tarp didelių duomenų rinkinių mažinimo siekiant našumo ir duomenų suprantamumo žmonėms, priimantiems sprendimus. Didelis glaudinimo efektyvumas taupo saugojimo išlaidas ir pagreitina apdorojimą, tačiau gali sukelti interpretavimo praradimą, todėl beveik neįmanoma atsekti, kaip konkretūs įvesties duomenys lėmė galutines verslo išvadas.
Akcentai
Efektyvumas priklauso nuo mašinos; interpretuojamumas – nuo žmogaus.
Maksimalus efektyvumas dažnai reikalauja pašalinti kontekstą, kuris duomenis daro naudingus.
Aiškinamojo pobūdžio praradimas dažnai yra negrįžtamas, jei pirminiai neapdoroti duomenys yra ištrinami po apdorojimo.
Idealiai efektyvi duomenų bazė yra nenaudinga, jei niekas negali paaiškinti, ką reiškia skaičiai.
Kas yra Suspaudimo efektyvumas?
Duomenų apimties sumažinimo efektyvumo, palyginti su pradiniu dydžiu, matas.
Paprastai jis išreiškiamas santykiu arba procentine dalimi, sutaupyta saugojimo metu.
Efektyvumas labai skiriasi tarp be nuostolių metodų, tokių kaip ZIP, ir nuostolingų metodų, tokių kaip JPEG.
Šiuolaikiniai stulpeliniai saugojimo formatai, tokie kaip „Parquet“, žymiai padidina analitinių užklausų efektyvumą.
Didelis efektyvumas tiesiogiai sumažina debesijos infrastruktūros sąnaudas ir sumažina tinklo delsą duomenų perdavimo metu.
Efektyvumo ribas dažnai lemia duomenų rinkinio entropija arba atsitiktinumas.
Kas yra Aiškinamumo praradimas?
Žmogaus gebėjimo paaiškinti ar suprasti duomenis sumažėjimas po transformacijos.
Nuostoliai dažnai atsiranda, kai sudėtingi duomenys yra agreguojami, maišomi arba redukuojami į abstrakčius matmenis.
Tai sukuria „juodosios dėžės“ efektą, kai metrikos pagrindimas tampa neaiškus.
Didelio našumo modelių funkcijų inžinerija dažnai aukoja aiškumą dėl neapdoroto tikslumo.
Dėl didelio duomenų praradimo gali atsirasti „tamsių duomenų“, kurie egzistuoja, bet negali būti patikrinti dėl šališkumo ar klaidų.
Tokie reglamentai kaip BDAR reikalauja tam tikro automatizuoto sprendimų priėmimo aiškinamumo lygio.
Palyginimo lentelė
Funkcija
Suspaudimo efektyvumas
Aiškinamumo praradimas
Pagrindinis tikslas
Sumažinkite pėdsaką
Maksimalus skaidrumas
Išteklių poveikis
Sumažina sandėliavimo išlaidas
Padidina žmogaus atliekamo audito laiką
Techninis dėmesys
Algoritmai ir matematika
Logika ir kontekstas
Gedimo režimas
Duomenų sugadinimas
Nepaaiškinami rezultatai
Optimizavimo įrankis
Kodavimas ir maišymas
Dokumentacija ir metaduomenys
Verslo vertė
Veikimo greitis
Strateginis pasitikėjimas
Išsamus palyginimas
Našumas ir aiškumo švytuoklė
Inžinieriai dažnai siekia maksimalaus glaudinimo efektyvumo, kad sistemos veiktų efektyviai ir greitai. Tačiau, kai duomenys tampa vis labiau abstrahuojami naudojant tokius metodus kaip pagrindinių komponentų analizė (PCA), pagrindinis „kodėl“ išnyksta. Galite susidurti su sistema, kuri tiksliai prognozuoja pardavimus, bet negali pasakyti, kuri konkreti rinkodaros kampanija iš tikrųjų paskatino pajamas.
Sandėliavimo išlaidos ir reguliavimo rizika
Duomenų apibendrinimas į mažas, veiksmingas santraukas yra puikus būdas sutaupyti pinigų AWS sąskaitose. Pavojus kyla, kai reguliavimo institucija arba klientas paprašo išsamaus konkretaus įvykio aprašymo. Jei glaudinimas buvo pernelyg agresyvus, tie detalūs įrodymai prarandami, todėl įmonė išlieka efektyvi, tačiau patiria didžiulį teisinį ar atitikties galvos skausmą.
Matmenys ir žmogiškasis faktorius
Efektyvumui didinti dažnai naudojami metodai apima kintamųjų, arba „matmenų“, skaičiaus mažinimą duomenų rinkinyje. Nors tai palengvina matematinius veiksmus kompiuteriui, duomenys tampa svetimi žmogui. Kai duomenų rinkinys yra labai suspaustas į abstrakčius vektorius, analitikas nebegali peržiūrėti eilutės ir atpažinti jos kaip kliento operacijos, todėl visiškai prarandama intuicija.
Prarastiniai ir beprarasčiai metodai
Glaudinimas be nuostolių yra „auksinis standartas“ siekiant išlaikyti interpretuojamumą, nes kiekvieną bitą galima atkurti tobulai. Tačiau glaudinimas su nuostoliais keičia tikslumą dėl ypatingo efektyvumo. Analizėje „glaudinimas su nuostoliais“ dažnai reiškia vidurkių ėmimą iš vidurkių; nors failo dydis yra mažas, prarandami išskirtiniai duomenys ir niuansai, kuriuose dažnai slypi vertingiausios verslo įžvalgos.
Privalumai ir trūkumai
Suspaudimo efektyvumas
Privalumai
+Mažesnės aparatinės įrangos išlaidos
+Didesnis užklausų greitis
+Lengvesnis duomenų perdavimas
+Mažesni atsarginių kopijų kūrimo langai
Pasirinkta
−CPU intensyviai naudojama dekompresija
−Paslėpti duomenų modeliai
−Abstrakcijos sluoksniai
−Atsekamumo problemos
Aiškinamumo praradimas
Privalumai
+Apsaugo privatumą (kartais)
+Supaprastintos ataskaitų suvestinės
+Greitesni aukšto lygio rodiniai
+Pašalina nereikalingą triukšmą
Pasirinkta
−Negalima audituoti rezultatų
−Sunkiau derinti
−Teisinės atitikties rizika
−Sumažėjęs vartotojų pasitikėjimas
Dažni klaidingi įsitikinimai
Mitas
Bet koks suspaudimas lemia tam tikrą supratimo praradimą.
Realybė
Be nuostolių glaudinimo formatai leidžia sumažinti duomenų kiekį neprarandant nė vienos detalės. Interpretuojamumas nukenčia tik tuo atveju, jei nusprendžiate transformuoti duomenis į formatą, kurio žmonės negali lengvai perskaityti, pvz., dvejetainius „blobus“ arba maišos eilutes.
Mitas
Visada turėtumėte saugoti kiekvieną neapdorotą duomenų dalį amžinai.
Realybė
Visko išsaugojimas dažnai yra finansiškai neįmanomas ir sukuria „duomenų pelkes“. Tikslas – rasti kompromisą, kuriame duomenys būtų pakankamai suspausti, kad būtų efektyvu, tačiau duomenų „DNR“ būtų prieinama būsimiems klausimams.
Mitas
Aiškinamasis aspektas svarbus tik duomenų mokslininkams.
Realybė
Netechniniai suinteresuotieji asmenys, pavyzdžiui, rinkodaros vadovai ar generaliniai direktoriai, yra pagrindinės interpretavimo praradimo aukos. Jei jie nesupranta ataskaitos logikos, jie yra mažiau linkę veikti remdamiesi joje pateiktomis įžvalgomis.
Mitas
Didesnis suspaudimas visada pagreitina užklausas.
Realybė
Ne visada. Jei glaudinimas yra per sudėtingas, laikas, kurį kompiuteris sugaišta „išpakuodamas“ duomenis, gali būti ilgesnis nei laikas, sutaupytas nuskaitant mažesnį failą.
Dažnai užduodami klausimai
Kodėl interpretuojamumas yra svarbus dirbtinio intelekto ir analizės srityse?
Artėjant prie automatizuotų sistemų, turime žinoti, kad kompiuteris priėmė sprendimą dėl teisingų priežasčių. Jei modelis yra labai efektyvus, bet jam trūksta interpretuojamumo, negalime pasakyti, ar jis šališkas, ar tiesiog klaidingas, kol nebūna per vėlu. Tai skirtumas tarp žinojimo „jis veikia“ ir žinojimo „kodėl jis veikia“.
Ar galiu pasiekti ir aukštą efektyvumą, ir gerą interpretuojamumą?
Tai nuolatinis balansavimo veiksmas, tačiau tokios technologijos kaip stulpelinė saugykla („Parquet“ / ORC) priartėja. Jos neįtikėtinai gerai suspaudžia duomenis ir leidžia pateikti užklausas konkretiems „žmonėms skaitomiems“ stulpeliams neišpakuojant viso failo. Vis dėlto vis tiek reikia atidžiai rinktis, kaip agreguoti arba „grupuoti“ tuos duomenis.
Kokia yra „juodosios dėžės“ problema šiame kontekste?
Juodoji dėžė reiškia situaciją, kai interpretavimo praradimas yra toks didelis, kad galite matyti, kas įeina ir kas išeina, bet vidurys lieka paslaptis. Analizėje tai dažnai nutinka, kai duomenys yra stipriai užkoduoti siekiant sutaupyti vietos arba jie paleidžiami pagal sudėtingus algoritmus, kurie negauna žmogui suprantamos logikos.
Ar duomenų agregavimas laikomas glaudinimo forma?
Taip, agregavimas iš esmės yra „nuostolinga“ glaudinimo forma. Pavertę 1000 atskirų pardavimų viena „Dienos suma“, sumažinote duomenų dydį 99,9 %. Įgavote didžiulį efektyvumą, bet praradote galimybę matyti, kurie individualūs klientai pirko kuriuos produktus.
Kaip tai paveiks mano debesies saugyklos sąskaitą?
Tiesiogiai. Dėl didelio glaudinimo efektyvumo mokate už mažiau gigabaitų saugyklos ir mažiau duomenų „išėjimo“ perkeliant failus tarp regionų. Tačiau jei interpretuojamumo praradimas yra didelis, galite sumokėti daugiau „žmogaus darbo valandomis“, kai analitikas turi praleisti tris dienas bandydamas atkurti trūkstamą detalę.
Ar interpretuojamumo praradimas yra tas pats, kas duomenų sugadinimas?
Ne, jie skiriasi. Iškraipymas reiškia, kad duomenys yra sugadinti ir kompiuteris jų neįskaito. Aiškinamojo gebėjimo praradimas reiškia, kad kompiuteriui duomenys yra visiškai tinkami, bet žmogui jie nebeaiškiai suprantami. Kompiuteris patenkintas; analitikas sutrikęs.
Kurioms pramonės šakoms šis kompromisas rūpi labiausiai?
Finansai ir sveikatos apsauga yra sąrašo viršuje. Šiose srityse efektyvumas yra puiku, tačiau gebėjimas paaiškinti „paskolos atsisakymą“ ar „medicininę diagnozę“ yra teisinis reikalavimas. Jie dažnai išleidžia daugiau pinigų saugojimui, kad neprarastų to gyvybiškai svarbaus interpretuojamumo.
Ar duomenų maišymas padeda padidinti efektyvumą?
Maišos funkcija gali padaryti duomenis labai vienodus ir efektyvius kompiuteriui, tačiau tai yra didžiausia interpretuojamumo praradimo forma. Kai vardas, pvz., „John Smith“, sumaišomas į atsitiktinę simbolių eilutę, žmogus niekada negalės pažiūrėti į tą eilutę ir sužinoti, į ką ji nurodo, neturėdamas rakto.
Kokį vaidmenį čia atlieka metaduomenys?
Metaduomenys veikia kaip „tiltas“. Galite labai suspausti pagrindinius duomenis, kad sutaupytumėte vietos, tačiau palikite atskirą, nesuspaustą metaduomenų sluoksnį, kuriame paaiškinama, ką duomenys reiškia. Tai leidžia išlaikyti aukštą efektyvumą ir kartu suteikia žmonėms žemėlapį, kad jie suprastų, į ką jie žiūri.
Kaip išmatuoti interpretuojamumo praradimą?
Sunku pateikti vieną skaičių, bet galite tai patikrinti paprašę analitiko atlikti „atvirkštinę paiešką“. Jei jie gali peržiūrėti suspaustą išvestį ir tiksliai apibūdinti pradinį įvykį nematydami neapdoroto failo, jūsų interpretuojamumo praradimas yra mažas. Jei jie tik spėlioja, jis yra didelis.
Nuosprendis
Teikite pirmenybę archyvuotų žurnalų ir didelio kiekio telemetrijos duomenų glaudinimo efektyvumui, kai vienintelis tikslas yra neapdoroto apdorojimo greitis. Sutelkite dėmesį į tai, kaip sumažinti su klientais susijusių metrikų ir bet kokių duomenų, naudojamų svarbiems finansiniams ar teisiniams sprendimams pagrįsti, interpretuojamumo praradimą.