didieji duomenysduomenų inžinerijaanalitikos strategijamašininis mokymasis

Suspaudimo efektyvumas ir interpretuojamumo praradimas

Duomenų specialistai dažnai susiduria su sudėtingu kompromisu tarp didelių duomenų rinkinių mažinimo siekiant našumo ir duomenų suprantamumo žmonėms, priimantiems sprendimus. Didelis glaudinimo efektyvumas taupo saugojimo išlaidas ir pagreitina apdorojimą, tačiau gali sukelti interpretavimo praradimą, todėl beveik neįmanoma atsekti, kaip konkretūs įvesties duomenys lėmė galutines verslo išvadas.

Akcentai

Efektyvumas priklauso nuo mašinos; interpretuojamumas – nuo žmogaus.
Maksimalus efektyvumas dažnai reikalauja pašalinti kontekstą, kuris duomenis daro naudingus.
Aiškinamojo pobūdžio praradimas dažnai yra negrįžtamas, jei pirminiai neapdoroti duomenys yra ištrinami po apdorojimo.
Idealiai efektyvi duomenų bazė yra nenaudinga, jei niekas negali paaiškinti, ką reiškia skaičiai.

Kas yra Suspaudimo efektyvumas?

Duomenų apimties sumažinimo efektyvumo, palyginti su pradiniu dydžiu, matas.

Paprastai jis išreiškiamas santykiu arba procentine dalimi, sutaupyta saugojimo metu.
Efektyvumas labai skiriasi tarp be nuostolių metodų, tokių kaip ZIP, ir nuostolingų metodų, tokių kaip JPEG.
Šiuolaikiniai stulpeliniai saugojimo formatai, tokie kaip „Parquet“, žymiai padidina analitinių užklausų efektyvumą.
Didelis efektyvumas tiesiogiai sumažina debesijos infrastruktūros sąnaudas ir sumažina tinklo delsą duomenų perdavimo metu.
Efektyvumo ribas dažnai lemia duomenų rinkinio entropija arba atsitiktinumas.

Kas yra Aiškinamumo praradimas?

Žmogaus gebėjimo paaiškinti ar suprasti duomenis sumažėjimas po transformacijos.

Nuostoliai dažnai atsiranda, kai sudėtingi duomenys yra agreguojami, maišomi arba redukuojami į abstrakčius matmenis.
Tai sukuria „juodosios dėžės“ efektą, kai metrikos pagrindimas tampa neaiškus.
Didelio našumo modelių funkcijų inžinerija dažnai aukoja aiškumą dėl neapdoroto tikslumo.
Dėl didelio duomenų praradimo gali atsirasti „tamsių duomenų“, kurie egzistuoja, bet negali būti patikrinti dėl šališkumo ar klaidų.
Tokie reglamentai kaip BDAR reikalauja tam tikro automatizuoto sprendimų priėmimo aiškinamumo lygio.

Palyginimo lentelė

Funkcija	Suspaudimo efektyvumas	Aiškinamumo praradimas
Pagrindinis tikslas	Sumažinkite pėdsaką	Maksimalus skaidrumas
Išteklių poveikis	Sumažina sandėliavimo išlaidas	Padidina žmogaus atliekamo audito laiką
Techninis dėmesys	Algoritmai ir matematika	Logika ir kontekstas
Gedimo režimas	Duomenų sugadinimas	Nepaaiškinami rezultatai
Optimizavimo įrankis	Kodavimas ir maišymas	Dokumentacija ir metaduomenys
Verslo vertė	Veikimo greitis	Strateginis pasitikėjimas

Išsamus palyginimas

Našumas ir aiškumo švytuoklė

Inžinieriai dažnai siekia maksimalaus glaudinimo efektyvumo, kad sistemos veiktų efektyviai ir greitai. Tačiau, kai duomenys tampa vis labiau abstrahuojami naudojant tokius metodus kaip pagrindinių komponentų analizė (PCA), pagrindinis „kodėl“ išnyksta. Galite susidurti su sistema, kuri tiksliai prognozuoja pardavimus, bet negali pasakyti, kuri konkreti rinkodaros kampanija iš tikrųjų paskatino pajamas.

Sandėliavimo išlaidos ir reguliavimo rizika

Duomenų apibendrinimas į mažas, veiksmingas santraukas yra puikus būdas sutaupyti pinigų AWS sąskaitose. Pavojus kyla, kai reguliavimo institucija arba klientas paprašo išsamaus konkretaus įvykio aprašymo. Jei glaudinimas buvo pernelyg agresyvus, tie detalūs įrodymai prarandami, todėl įmonė išlieka efektyvi, tačiau patiria didžiulį teisinį ar atitikties galvos skausmą.

Matmenys ir žmogiškasis faktorius

Efektyvumui didinti dažnai naudojami metodai apima kintamųjų, arba „matmenų“, skaičiaus mažinimą duomenų rinkinyje. Nors tai palengvina matematinius veiksmus kompiuteriui, duomenys tampa svetimi žmogui. Kai duomenų rinkinys yra labai suspaustas į abstrakčius vektorius, analitikas nebegali peržiūrėti eilutės ir atpažinti jos kaip kliento operacijos, todėl visiškai prarandama intuicija.

Prarastiniai ir beprarasčiai metodai

Glaudinimas be nuostolių yra „auksinis standartas“ siekiant išlaikyti interpretuojamumą, nes kiekvieną bitą galima atkurti tobulai. Tačiau glaudinimas su nuostoliais keičia tikslumą dėl ypatingo efektyvumo. Analizėje „glaudinimas su nuostoliais“ dažnai reiškia vidurkių ėmimą iš vidurkių; nors failo dydis yra mažas, prarandami išskirtiniai duomenys ir niuansai, kuriuose dažnai slypi vertingiausios verslo įžvalgos.

Privalumai ir trūkumai

Suspaudimo efektyvumas

Privalumai

+ Mažesnės aparatinės įrangos išlaidos
+ Didesnis užklausų greitis
+ Lengvesnis duomenų perdavimas
+ Mažesni atsarginių kopijų kūrimo langai

Pasirinkta

− CPU intensyviai naudojama dekompresija
− Paslėpti duomenų modeliai
− Abstrakcijos sluoksniai
− Atsekamumo problemos

Aiškinamumo praradimas

Privalumai

+ Apsaugo privatumą (kartais)
+ Supaprastintos ataskaitų suvestinės
+ Greitesni aukšto lygio rodiniai
+ Pašalina nereikalingą triukšmą

Pasirinkta

− Negalima audituoti rezultatų
− Sunkiau derinti
− Teisinės atitikties rizika
− Sumažėjęs vartotojų pasitikėjimas

Dažni klaidingi įsitikinimai

Mitas

Bet koks suspaudimas lemia tam tikrą supratimo praradimą.

Realybė

Be nuostolių glaudinimo formatai leidžia sumažinti duomenų kiekį neprarandant nė vienos detalės. Interpretuojamumas nukenčia tik tuo atveju, jei nusprendžiate transformuoti duomenis į formatą, kurio žmonės negali lengvai perskaityti, pvz., dvejetainius „blobus“ arba maišos eilutes.

Mitas

Visada turėtumėte saugoti kiekvieną neapdorotą duomenų dalį amžinai.

Realybė

Visko išsaugojimas dažnai yra finansiškai neįmanomas ir sukuria „duomenų pelkes“. Tikslas – rasti kompromisą, kuriame duomenys būtų pakankamai suspausti, kad būtų efektyvu, tačiau duomenų „DNR“ būtų prieinama būsimiems klausimams.

Mitas

Aiškinamasis aspektas svarbus tik duomenų mokslininkams.

Realybė

Netechniniai suinteresuotieji asmenys, pavyzdžiui, rinkodaros vadovai ar generaliniai direktoriai, yra pagrindinės interpretavimo praradimo aukos. Jei jie nesupranta ataskaitos logikos, jie yra mažiau linkę veikti remdamiesi joje pateiktomis įžvalgomis.

Mitas

Didesnis suspaudimas visada pagreitina užklausas.

Realybė

Ne visada. Jei glaudinimas yra per sudėtingas, laikas, kurį kompiuteris sugaišta „išpakuodamas“ duomenis, gali būti ilgesnis nei laikas, sutaupytas nuskaitant mažesnį failą.

Dažnai užduodami klausimai

Kodėl interpretuojamumas yra svarbus dirbtinio intelekto ir analizės srityse?

Artėjant prie automatizuotų sistemų, turime žinoti, kad kompiuteris priėmė sprendimą dėl teisingų priežasčių. Jei modelis yra labai efektyvus, bet jam trūksta interpretuojamumo, negalime pasakyti, ar jis šališkas, ar tiesiog klaidingas, kol nebūna per vėlu. Tai skirtumas tarp žinojimo „jis veikia“ ir žinojimo „kodėl jis veikia“.

Ar galiu pasiekti ir aukštą efektyvumą, ir gerą interpretuojamumą?

Tai nuolatinis balansavimo veiksmas, tačiau tokios technologijos kaip stulpelinė saugykla („Parquet“ / ORC) priartėja. Jos neįtikėtinai gerai suspaudžia duomenis ir leidžia pateikti užklausas konkretiems „žmonėms skaitomiems“ stulpeliams neišpakuojant viso failo. Vis dėlto vis tiek reikia atidžiai rinktis, kaip agreguoti arba „grupuoti“ tuos duomenis.

Kokia yra „juodosios dėžės“ problema šiame kontekste?

Juodoji dėžė reiškia situaciją, kai interpretavimo praradimas yra toks didelis, kad galite matyti, kas įeina ir kas išeina, bet vidurys lieka paslaptis. Analizėje tai dažnai nutinka, kai duomenys yra stipriai užkoduoti siekiant sutaupyti vietos arba jie paleidžiami pagal sudėtingus algoritmus, kurie negauna žmogui suprantamos logikos.

Ar duomenų agregavimas laikomas glaudinimo forma?

Taip, agregavimas iš esmės yra „nuostolinga“ glaudinimo forma. Pavertę 1000 atskirų pardavimų viena „Dienos suma“, sumažinote duomenų dydį 99,9 %. Įgavote didžiulį efektyvumą, bet praradote galimybę matyti, kurie individualūs klientai pirko kuriuos produktus.

Kaip tai paveiks mano debesies saugyklos sąskaitą?

Tiesiogiai. Dėl didelio glaudinimo efektyvumo mokate už mažiau gigabaitų saugyklos ir mažiau duomenų „išėjimo“ perkeliant failus tarp regionų. Tačiau jei interpretuojamumo praradimas yra didelis, galite sumokėti daugiau „žmogaus darbo valandomis“, kai analitikas turi praleisti tris dienas bandydamas atkurti trūkstamą detalę.

Ar interpretuojamumo praradimas yra tas pats, kas duomenų sugadinimas?

Ne, jie skiriasi. Iškraipymas reiškia, kad duomenys yra sugadinti ir kompiuteris jų neįskaito. Aiškinamojo gebėjimo praradimas reiškia, kad kompiuteriui duomenys yra visiškai tinkami, bet žmogui jie nebeaiškiai suprantami. Kompiuteris patenkintas; analitikas sutrikęs.

Kurioms pramonės šakoms šis kompromisas rūpi labiausiai?

Finansai ir sveikatos apsauga yra sąrašo viršuje. Šiose srityse efektyvumas yra puiku, tačiau gebėjimas paaiškinti „paskolos atsisakymą“ ar „medicininę diagnozę“ yra teisinis reikalavimas. Jie dažnai išleidžia daugiau pinigų saugojimui, kad neprarastų to gyvybiškai svarbaus interpretuojamumo.

Ar duomenų maišymas padeda padidinti efektyvumą?

Maišos funkcija gali padaryti duomenis labai vienodus ir efektyvius kompiuteriui, tačiau tai yra didžiausia interpretuojamumo praradimo forma. Kai vardas, pvz., „John Smith“, sumaišomas į atsitiktinę simbolių eilutę, žmogus niekada negalės pažiūrėti į tą eilutę ir sužinoti, į ką ji nurodo, neturėdamas rakto.

Kokį vaidmenį čia atlieka metaduomenys?

Metaduomenys veikia kaip „tiltas“. Galite labai suspausti pagrindinius duomenis, kad sutaupytumėte vietos, tačiau palikite atskirą, nesuspaustą metaduomenų sluoksnį, kuriame paaiškinama, ką duomenys reiškia. Tai leidžia išlaikyti aukštą efektyvumą ir kartu suteikia žmonėms žemėlapį, kad jie suprastų, į ką jie žiūri.

Kaip išmatuoti interpretuojamumo praradimą?

Sunku pateikti vieną skaičių, bet galite tai patikrinti paprašę analitiko atlikti „atvirkštinę paiešką“. Jei jie gali peržiūrėti suspaustą išvestį ir tiksliai apibūdinti pradinį įvykį nematydami neapdoroto failo, jūsų interpretuojamumo praradimas yra mažas. Jei jie tik spėlioja, jis yra didelis.

Nuosprendis

Teikite pirmenybę archyvuotų žurnalų ir didelio kiekio telemetrijos duomenų glaudinimo efektyvumui, kai vienintelis tikslas yra neapdoroto apdorojimo greitis. Sutelkite dėmesį į tai, kaip sumažinti su klientais susijusių metrikų ir bet kokių duomenų, naudojamų svarbiems finansiniams ar teisiniams sprendimams pagrįsti, interpretuojamumo praradimą.

Susiję palyginimai

Astrologinė prognozė ir statistinė prognozė

Astrologinės prognozės susieja dangaus ciklus su žmonių patirtimi siekiant simbolinės reikšmės, o statistinės prognozės analizuoja empirinius istorinius duomenis, kad įvertintų būsimas skaitines vertes. Šiame palyginime nagrinėjamas skirtumas tarp senovinės, archetipais pagrįstos asmeninių apmąstymų sistemos ir modernios, duomenimis pagrįstos metodologijos, naudojamos objektyviam sprendimų priėmimui versle ir moksle.

Astrologiniai tranzitai ir gyvenimo įvykių tikimybių modeliai

Šis palyginimas nagrinėja intriguojančią prarają tarp senovinių dangaus stebėjimų ir šiuolaikinės prognozinės analizės. Astrologiniai tranzitai naudoja planetų ciklus asmeninio augimo fazėms interpretuoti, o gyvenimo įvykių tikimybių modeliai remiasi dideliais duomenimis ir statistiniais algoritmais, kad numatytų konkrečius etapus, tokius kaip karjeros pokyčiai ar sveikatos priežiūros poreikiai.

Ateities prognozavimo modeliai ir retrospektyvi analizė

Nors retrospektyvinė analizė veikia kaip organizacijos galinio vaizdo veidrodis, analizuodama istorinius įrašus, kad suprastų praeities sėkmes ir nesėkmes, ateities prognozavimo modeliai žvelgia pro priekinį stiklą, derindami statistinius algoritmus ir mašininį mokymąsi, kad numatytų būsimus rinkos pokyčius, klientų veiksmus ir veiklos kliūtis.

Aukšto dažnio duomenys ir agreguoti duomenys modeliavime

Pasirinkimas tarp aukšto dažnio duomenų ir apibendrintų duomenų yra esminis kompromisas analitikoje. Nors neapdoroti, per sekundę gaunami sandoriai ir jutiklių srautai suteikia neprilygstamą tiesioginio elgesio ir rinkos mikrostruktūrų matomumą, suspausti laiko apibendrinimai pašalina didžiulį statistinį triukšmą ir didelius infrastruktūros poreikius, kad būtų galima atskleisti aiškias, struktūrines ilgalaikes tendencijas.

Automatinis modelio stebėjimas ir rankinis eksperimento stebėjimas

Pasirinkimas tarp automatinio modelių sekimo ir rankinio eksperimentų sekimo iš esmės lemia duomenų mokslo komandos greitį ir atkuriamumą. Nors automatizavimas naudoja specializuotą programinę įrangą, kad sklandžiai užfiksuotų kiekvieną hiperparametrą, metriką ir artefaktą, rankinis sekimas priklauso nuo žmogaus kruopštumo naudojant skaičiuokles arba „markdown“ failus, todėl reikia rasti griežtą kompromisą tarp sąrankos greičio ir ilgalaikio keičiamo tikslumo.