Saspiešanas efektivitāte pret interpretējamības zudumu
Datu speciālisti bieži saskaras ar sarežģītu kompromisu starp milzīgu datu kopu samazināšanu veiktspējas labad un datu saprotamības nodrošināšanu cilvēkiem, kas pieņem lēmumus. Augsta saspiešanas efektivitāte ietaupa uzglabāšanas izmaksas un paātrina apstrādi, taču tā var izraisīt interpretējamības zudumu, padarot gandrīz neiespējamu izsekot, kā konkrēti ievades dati noveda pie galīgajiem biznesa secinājumiem.
Iezīmes
Efektivitāte ir saistīta ar mašīnu; interpretējamība ir saistīta ar cilvēku.
Maksimālai efektivitātei bieži vien ir jānoņem konteksts, kas padara datus noderīgus.
Interpretējamības zudums bieži vien ir neatgriezenisks, ja sākotnējie neapstrādātie dati pēc apstrādes tiek dzēsti.
Perfekti efektīva datubāze ir bezjēdzīga, ja neviens nevar izskaidrot, ko nozīmē skaitļi.
Kas ir Saspiešanas efektivitāte?
Mērījums, kas parāda, cik efektīvi datu apjoms tiek samazināts salīdzinājumā ar to sākotnējo lielumu.
Parasti to izsaka kā attiecību vai procentuālo daļu no uzglabāšanas laikā ietaupītās vietas.
Efektivitāte ievērojami atšķiras starp bezzudumu metodēm, piemēram, ZIP, un zudumradošajām metodēm, piemēram, JPEG.
Mūsdienu kolonnu glabāšanas formāti, piemēram, Parquet, ievērojami palielina analītisko vaicājumu efektivitāti.
Augsta efektivitāte tieši samazina mākoņinfrastruktūras izmaksas un samazina tīkla latentumu pārsūtīšanas laikā.
Efektivitātes griestus bieži nosaka entropija vai nejaušība datu kopā.
Kas ir Interpretējamības zudums?
Cilvēka spēju izskaidrot vai saprast datus samazināšanās pēc to pārveidošanas.
Zaudējumi bieži rodas, ja sarežģīti dati tiek apkopoti, jaukti vai reducēti abstraktās dimensijās.
Tas rada “melnās kastes” efektu, kur metrikas pamatojums kļūst neskaidrs.
Augstas veiktspējas modeļu funkciju inženierija bieži vien upurē skaidrību, lai iegūtu neapstrādātu precizitāti.
Nopietni zudumi var novest pie "tumšiem datiem", kas pastāv, bet kurus nevar pārbaudīt, lai noteiktu neobjektivitāti vai kļūdas.
Tādi noteikumi kā GDPR pieprasa noteiktu interpretējamības līmeni automatizētai lēmumu pieņemšanai.
Salīdzinājuma tabula
Funkcija
Saspiešanas efektivitāte
Interpretējamības zudums
Galvenais mērķis
Samazināt ietekmi
Maksimāli palielināt caurspīdīgumu
Resursu ietekme
Samazina uzglabāšanas izmaksas
Palielina cilvēka audita laiku
Tehniskā uzmanība
Algoritmi un matemātika
Loģika un konteksts
Kļūmes režīms
Datu korupcija
Neizskaidrojami rezultāti
Optimizācijas rīks
Kodēšana un jaukšana
Dokumentācija un metadati
Uzņēmuma vērtība
Darbības ātrums
Stratēģiskā uzticība
Detalizēts salīdzinājums
Veiktspējas un skaidrības svārsta salīdzinājums
Inženieri bieži vien cenšas panākt maksimālu saspiešanas efektivitāti, lai sistēmas darbotos efektīvi un ātri. Tomēr, datiem kļūstot arvien abstraktākiem, izmantojot tādas metodes kā galveno komponentu analīze (PCA), pamatā esošais “kāpēc” izzūd. Jūs varat nonākt pie sistēmas, kas precīzi prognozē pārdošanas apjomus, bet nevar pateikt, kura konkrētā mārketinga kampaņa faktiski nodrošināja ieņēmumus.
Uzglabāšanas izmaksas salīdzinājumā ar regulējošo risku
Datu apkopošana nelielos, efektīvās kopsavilkumos ir lielisks veids, kā ietaupīt naudu AWS rēķinā. Bīstamība rodas, ja regulators vai klients pieprasa detalizētu konkrēta notikuma sadalījumu. Ja saspiešana bija pārāk agresīva, šie detalizētie pierādījumi ir pazuduši, atstājot uzņēmumam augstu efektivitāti, bet milzīgas juridiskas vai atbilstības galvassāpes.
Dimensionalitāte un cilvēciskais faktors
Efektivitātes palielināšanas metodes bieži ietver mainīgo jeb "dimensiju" skaita samazināšanu datu kopā. Lai gan tas datoram atvieglo matemātiku, tas padara datus svešus cilvēkam. Kad datu kopa ir ļoti saspiesta abstraktos vektoros, analītiķis vairs nevar aplūkot rindu un atpazīt to kā klienta darījumu, kā rezultātā tiek pilnībā zaudēta intuīcija.
Zaudējamas un bezzudumu pieejas
Bezzudumu saspiešana ir “zelta standarts” interpretējamības saglabāšanai, jo katru bitu var atjaunot perfekti. Tomēr zudumradošā saspiešana precizitāti aizstāj ar ārkārtēju efektivitāti. Analītikā “zudumuradoša” bieži nozīmē vidējo vērtību iegūšanu no vidējām vērtībām; lai gan faila lielums ir niecīgs, tiek zaudētas novirzes un nianses, kas bieži vien satur visvērtīgāko biznesa ieskatu.
Priekšrocības un trūkumi
Saspiešanas efektivitāte
Iepriekšējumi
+Zemākas aparatūras izmaksas
+Ātrāki vaicājumi
+Vienkāršāka datu pārsūtīšana
+Mazāki dublēšanas logi
Ievietots
−CPU ietilpīga dekompresija
−Slēptie datu modeļi
−Abstrakcijas slāņi
−Izsekojamības problēmas
Interpretējamības zudums
Iepriekšējumi
+Aizsargā privātumu (dažreiz)
+Vienkāršoti informācijas paneļi
+Ātrāki augsta līmeņa skati
+Noņem nevajadzīgu troksni
Ievietots
−Nevar auditēt rezultātus
−Grūtāk atkļūdot
−Juridiskās atbilstības riski
−Samazināta lietotāju uzticība
Biežas maldības
Mīts
Jebkura saspiešana rada zināmu izpratnes zudumu.
Realitāte
Bezzudumu saspiešanas formāti ļauj samazināt datu apjomu, nezaudējot nevienu detaļu. Interpretējamība cieš tikai tad, ja izvēlaties pārveidot datus formātā, ko cilvēki nevar viegli nolasīt, piemēram, bināro blobu vai hešētu virkņu formātā.
Mīts
Jums vienmēr vajadzētu saglabāt katru neapstrādāto datu vienību uz visiem laikiem.
Realitāte
Visu datu saglabāšana bieži vien ir finansiāli neiespējama un rada "datu purvus". Mērķis ir atrast kompromisu, kurā dati tiek saspiesti pietiekami efektīvi, vienlaikus saglabājot datu "DNS" pieejamu turpmākiem jautājumiem.
Mīts
Interpretējamība ir svarīga tikai datu zinātniekiem.
Realitāte
Interpretējamības zuduma galvenie upuri ir ieinteresētās personas bez tehniskām zināšanām, piemēram, mārketinga vadītāji vai izpilddirektori. Ja viņi nesaprot ziņojuma loģiku, viņi, visticamāk, nerīkosies, pamatojoties uz tajā sniegtajām atziņām.
Mīts
Augstāka saspiešanas pakāpe vienmēr paātrina vaicājumus.
Realitāte
Ne vienmēr. Ja saspiešana ir pārāk sarežģīta, laiks, ko dators pavada datu "atzipēšanai", faktiski var būt ilgāks nekā laiks, kas ietaupīts, nolasot mazāku failu.
Bieži uzdotie jautājumi
Kāpēc interpretējamība ir tik svarīga mākslīgajā intelektā un analītikā?
Virzoties uz automatizētām sistēmām, mums jāzina, ka dators ir pieņēmis lēmumu pareizu iemeslu dēļ. Ja modelis ir ļoti efektīvs, bet tam trūkst interpretējamības, mēs nevaram pateikt, vai tas ir neobjektīvs vai vienkārši nepareizs, kamēr nav par vēlu. Tā ir atšķirība starp zināšanām, ka "tas darbojas", un zināšanām, "kāpēc tas darbojas".
Vai man var būt gan augsta efektivitāte, gan augsta interpretējamība?
Tā ir nepārtraukta līdzsvarošanas darbība, taču tādas tehnoloģijas kā kolonnveida krātuve (Parquet/ORC) ir tuvu tam. Tās neticami labi saspiež datus, vienlaikus ļaujot vaicāt noteiktas “cilvēkam lasāmas” kolonnas, neatspiežot visu failu. Tomēr joprojām ir jābūt uzmanīgiem ar to, kā jūs apkopojat vai “grupējat” šos datus.
Kāda šajā kontekstā ir "melnās kastes" problēma?
Melnā kaste attiecas uz situāciju, kurā interpretējamības zudums ir tik liels, ka var redzēt, kas ienāk un kas iznāk, bet vidusdaļa ir noslēpums. Analītikā tas bieži notiek, ja dati ir stipri kodēti, lai ietaupītu vietu, vai arī tie tiek apstrādāti ar sarežģītiem algoritmiem, kas neizvada cilvēkam draudzīgu loģiku.
Vai datu apkopošana tiek uzskatīta par saspiešanas veidu?
Jā, apkopošana būtībā ir “zudumu nesoša” saspiešanas forma. Pārvēršot 1000 atsevišķus pārdošanas apjomus vienā “dienas kopsummā”, datu apjoms ir samazināts par 99,9 %. Jūs esat ieguvis milzīgu efektivitāti, taču esat zaudējis iespēju redzēt, kuri atsevišķie klienti ir iegādājušies kurus produktus.
Kā tas ietekmē manu mākoņkrātuves rēķinu?
Tieši. Augsta saspiešanas efektivitāte nozīmē, ka jūs maksājat par mazāku gigabaitu krātuves apjomu un mazāku datu “izejas apjomu”, pārvietojot failus starp reģioniem. Tomēr, ja interpretējamības zudums ir liels, jūs varat galu galā maksāt vairāk “cilvēka stundu” ziņā, kad analītiķim jāpavada trīs dienas, mēģinot rekonstruēt trūkstošo detaļu.
Vai interpretējamības zudums ir tas pats, kas datu bojājums?
Nē, tie ir atšķirīgi. Bojājumi nozīmē, ka dati ir bojāti un dators tos nevar nolasīt. Interpretējamības zudums nozīmē, ka datoram dati ir pilnīgi labi, bet cilvēkam tie vairs nav saprotami. Dators ir apmierināts; analītiķis ir apmulsis.
Kurām nozarēm šis kompromiss rūp visvairāk?
Finanses un veselības aprūpe ir saraksta augšgalā. Šajās jomās efektivitāte ir lieliska, taču spēja izskaidrot “aizdevuma atteikumu” vai “medicīnisko diagnozi” ir juridisks pienākums. Viņi bieži vien tērēs vairāk naudas glabāšanai, lai nodrošinātu, ka nezaudē šo svarīgo interpretējamību.
Vai datu jaukšana palīdz uzlabot efektivitāti?
Hešēšana var padarīt datus ļoti vienveidīgus un efektīvus datoram meklēšanai, taču tā ir interpretējamības zuduma galējā forma. Kad vārds, piemēram, "Jānis Smits", ir sajaukts nejaušā rakstzīmju virknē, cilvēks nekad nevar aplūkot šo virkni un zināt, uz ko tā attiecas, bez atslēgas.
Kāda loma šajā procesā ir metadatiem?
Metadati darbojas kā “tilts”. Jūs varat ievērojami saspiest galvenos datus, lai ietaupītu vietu, bet saglabāt atsevišķu, nesaspiestu metadatu slāni, kas paskaidro, ko dati attēlo. Tas ļauj saglabāt augstu efektivitāti, vienlaikus sniedzot cilvēkiem karti, lai viņi saprastu, ko viņi skatās.
Kā es varu izmērīt interpretējamības zudumu?
To ir grūti izteikt vienā skaitlī, taču to var pārbaudīt, palūdzot analītiķim veikt "apgriezto meklēšanu". Ja viņi var aplūkot saspiesto izvadi un precīzi aprakstīt sākotnējo notikumu, neredzot neapstrādāto failu, jūsu interpretējamības zudums ir zems. Ja viņi tikai min, tas ir augsts.
Spriedums
Piešķiriet prioritāti arhivēto žurnālu un liela apjoma telemetrijas datu saspiešanas efektivitātei, kur vienīgais mērķis ir neapstrādātu datu ātrums. Koncentrējieties uz interpretējamības zuduma samazināšanu attiecībā uz klientu apkalpošanas rādītājiem un jebkuriem datiem, ko izmanto svarīgu finanšu vai juridisko lēmumu pamatošanai.