Andmespetsialistid seisavad sageli silmitsi keerulise kompromissiga, mille vahel on massiivsete andmekogumite vähendamine jõudluse huvides ja andmete arusaadavuse säilitamine inimestest otsustajatele. Suur tihendamise efektiivsus säästab salvestuskulusid ja kiirendab töötlemist, kuid see võib põhjustada tõlgendatavuse kadu, mistõttu on peaaegu võimatu jälgida, kuidas konkreetsed sisendid viisid lõplike ärijäreldusteni.
Esiletused
Tõhusus on seotud masinaga; tõlgendatavus on seotud inimesega.
Maksimaalse efektiivsuse saavutamiseks tuleb sageli eemaldada kontekst, mis muudab andmed kasulikuks.
Tõlgendatavuse kadu on sageli püsiv, kui algsed töötlemata andmed pärast töötlemist kustutatakse.
Täiesti efektiivne andmebaas on kasutu, kui keegi ei suuda selgitada, mida numbrid tähendavad.
Mis on Tihendustõhusus?
Mõõt, mis näitab, kui tõhusalt andmemahtu algse suurusega võrreldes vähendatakse.
Tavaliselt väljendatakse seda suhtarvuna või protsendina salvestamise ajal säästetud ruumist.
Efektiivsus varieerub kadudeta meetodite (nt ZIP) ja kadudega meetodite (nt JPEG) vahel märkimisväärselt.
Kaasaegsed veergude salvestusvormingud, näiteks Parquet, suurendavad oluliselt analüütiliste päringute tõhusust.
Suur efektiivsus vähendab otseselt pilveinfrastruktuuri kulusid ja vähendab võrgu latentsust edastuste ajal.
Efektiivsuse ülempiiri dikteerib sageli andmestikus olev entroopia või juhuslikkus.
Mis on Tõlgendatavuse kadu?
Inimese võime vähenemine andmeid selgitada või mõista pärast nende teisendamist.
Kaotus tekib sageli keerukate andmete koondamisel, räsimisel või abstraktseteks mõõtmeteks vähendamisel.
See loob „musta kasti” efekti, kus mõõdiku taga peituv põhjendus muutub hägusaks.
Suure jõudlusega mudelite omaduste projekteerimine ohverdab sageli selguse algtaseme täpsuse nimel.
Tõsine kaotus võib viia „tumedate andmete” tekkeni, mis on küll olemas, kuid mida ei saa eelarvamuste või vigade suhtes auditeerida.
Sellised määrused nagu GDPR nõuavad automatiseeritud otsuste tegemisel teatud tõlgendatavuse taset.
Võrdlustabel
Funktsioon
Tihendustõhusus
Tõlgendatavuse kadu
Peamine eesmärk
Minimeerige jalajälge
Maksimeeri läbipaistvust
Ressursside mõju
Vähendab hoiustamiskulusid
Suurendab inimese auditeerimise aega
Tehniline fookus
Algoritmid ja matemaatika
Loogika ja kontekst
Rikke režiim
Andmete korruptsioon
Seletamatuid tulemusi
Optimeerimistööriist
Kodeerimine ja räsimine
Dokumentatsioon ja metaandmed
Äriväärtus
Töökiirus
Strateegiline usaldus
Üksikasjalik võrdlus
Jõudluse ja selguse pendel
Insenerid suruvad sageli peale maksimaalset tihendustõhusust, et süsteemid töötaksid sujuvalt ja kiiresti. Kuid kuna andmed muutuvad abstraktsemaks selliste tehnikate abil nagu peamine komponentide analüüs (PCA), kaob aluseks olev „miks“. Võite saada süsteemi, mis ennustab müüki ideaalselt, kuid ei suuda öelda, milline konkreetne turunduskampaania tegelikult tulu tõi.
Ladustamiskulud vs regulatiivne risk
Andmete koondamine väikesteks ja tõhusateks kokkuvõteteks on suurepärane viis AWS-i arvelt raha kokku hoida. Oht tekib siis, kui regulaator või klient küsib konkreetse sündmuse üksikasjalikku kirjeldust. Kui kokkupakkimine oli liiga agressiivne, siis see detailne tõend kaob, jättes ettevõttele küll suure efektiivsuse, kuid tohutu juriidilise või vastavusega seotud peavalu.
Mõõtmelisus ja inimtegur
Tõhususe suurendamiseks kasutatavad meetodid hõlmavad sageli muutujate ehk „mõõtmete” arvu vähendamist andmestikus. Kuigi see muudab arvuti jaoks matemaatika lihtsamaks, muudab see andmed inimese jaoks võõraks. Kui andmestik on tugevalt abstraktseteks vektoriteks tihendatud, ei saa analüütik enam rida vaadates klienditehinguna ära tunda, mis viib intuitsiooni täieliku kadumiseni.
Kadudega vs. kadudeta lähenemisviisid
Kadudeta tihendamine on tõlgendatavuse säilitamise „kuldstandard“, kuna iga bitti saab ideaalselt taastada. Kadudega tihendamine aga loobub täpsusest äärmise efektiivsuse nimel. Analüütikas tähendab „kadudega“ sageli keskmiste keskmiste võtmist; kuigi faili suurus on väike, kaovad kõrvalekalded ja nüansid, mis sageli sisaldavad kõige väärtuslikumat ärialast teavet.
Plussid ja miinused
Tihendustõhusus
Eelised
+Madalamad riistvarakulud
+Kiiremad päringud
+Lihtsam andmeedastus
+Väiksemad varundusaknad
Kinnitatud
−Protsessori poolt koormav dekompressioon
−Varjatud andmemustrid
−Abstraktsioonikihid
−Jälgitavuse probleemid
Tõlgendatavuse kadu
Eelised
+Kaitseb privaatsust (mõnikord)
+Lihtsustatud armatuurlauad
+Kiiremad kõrgetasemelised vaated
+Eemaldab ebaolulise müra
Kinnitatud
−Tulemusi ei saa auditeerida
−Raskem siluda
−Õigusliku vastavuse riskid
−Kasutajate usalduse vähenemine
Tavalised eksiarvamused
Müüt
Igasugune kokkusurumine toob kaasa teatud arusaamise kadumise.
Tõelisus
Kadudeta tihendusvormingud võimaldavad andmeid kahandada ilma ühtegi detaili kaotamata. Tõlgendatavus kannatab ainult siis, kui otsustate andmed teisendada vormingusse, mida inimesed ei saa kergesti lugeda, näiteks binaarbloobid või räsisingeld.
Müüt
Sa peaksid alati iga üksikut toorandmet igaveseks säilitama.
Tõelisus
Kõige alleshoidmine on sageli rahaliselt võimatu ja tekitab „andmemuhud“. Eesmärk on leida kompromiss, kus andmeid piisavalt kokku surutakse, et olla tõhus, säilitades samal ajal andmete „DNA“ tulevaste küsimuste jaoks kättesaadavana.
Müüt
Tõlgendatavus on oluline ainult andmeteadlaste jaoks.
Tõelisus
Mittetehnilised sidusrühmad, näiteks turundusjuhid või tegevjuhid, on tõlgendatavuse kadumise peamised ohvrid. Kui nad ei mõista aruande taga olevat loogikat, on väiksem tõenäosus, et nad tegutsevad selles esitatud teadmiste põhjal.
Müüt
Suurem tihendus muudab päringud alati kiiremaks.
Tõelisus
Mitte alati. Kui tihendamine on liiga keeruline, võib arvuti andmete lahtipakkimisele kulutada rohkem aega kui väiksema faili lugemisel kokku hoitud aeg.
Sageli küsitud küsimused
Miks on tehisintellektis ja analüütikas tõlgendatavus suur probleem?
Automatiseeritud süsteemide poole liikudes peame teadma, et arvuti tegi otsuse õigetel põhjustel. Kui mudel on väga tõhus, kuid seda on raske tõlgendada, ei saa me enne liiga hilja öelda, kas see on kallutatud või lihtsalt vale. See on erinevus teadmise „see töötab” ja teadmise „miks see töötab” vahel.
Kas ma saan saavutada nii kõrge efektiivsuse kui ka kõrge tõlgendatavuse?
See on pidev tasakaalustamise protsess, aga tehnoloogiad nagu veergude kaupa salvestamine (Parquet/ORC) on sellele lähedal. Need tihendavad andmeid uskumatult hästi, võimaldades samal ajal päringuid teha konkreetsete „inimloetavate” veergude kohta ilma kogu faili lahti pakkimata. Siiski tuleb olla ettevaatlik andmete koondamisel või „rühmitamisel”.
Mis on antud kontekstis „musta kasti” probleem?
Must kast viitab olukorrale, kus tõlgendatavuse kadu on nii suur, et on näha, mis sisse ja mis välja läheb, aga keskmine osa on mõistatus. Analüütikas juhtub see sageli siis, kui andmed on ruumi kokkuhoiuks tugevalt kodeeritud või kui need läbivad keerulisi algoritme, mis ei anna inimsõbralikku loogikat.
Kas andmete koondamine loetakse tihendamise vormiks?
Jah, koondamine on sisuliselt „kadudega“ tihendamise vorm. 1000 individuaalse müügi teisendamisega üheks „päevakokkuvõtteks“ olete vähendanud andmete mahtu 99,9%. Olete saavutanud tohutu efektiivsuse, kuid olete kaotanud võimaluse näha, millised üksikud kliendid milliseid tooteid ostsid.
Kuidas see minu pilvesalvestuse arvet mõjutab?
Otse. Kõrge tihendustõhusus tähendab, et maksate väiksema gigabaidise salvestusruumi ja väiksema andmete „väljavoolu” eest failide piirkondadevahelisel teisaldamisel. Kui aga tõlgendatavuse kadu on suur, võite lõpuks maksta rohkem „inimtöötundide” eest, kui analüütik peab kolm päeva kulutama puuduva detaili rekonstrueerimisele.
Kas tõlgendatavuse kadu on sama mis andmete korruptsioon?
Ei, need on erinevad. Andmete rikkumine tähendab, et andmed on katki ja arvuti ei saa neid lugeda. Tõlgendatavuse kadu tähendab, et arvuti jaoks on andmed täiesti korras, kuid inimese jaoks pole need enam loogilised. Arvuti on rahul; analüütik on segaduses.
Millised tööstusharud hoolivad sellest kompromissist kõige rohkem?
Rahandus ja tervishoid on nimekirja tipus. Nendes valdkondades on efektiivsus suurepärane, kuid laenu andmisest keeldumise või meditsiinilise diagnoosi selgitamine on seadusest tulenev nõue. Sageli kulutavad nad andmete talletamisele rohkem raha, et mitte kaotada seda olulist tõlgendatavust.
Kas andmete räsimine aitab tõhusust suurendada?
Räsimine võib muuta andmed väga ühtlaseks ja arvuti jaoks otsimiseks tõhusaks, kuid see on tõlgendatavuse kadumise ülim vorm. Kui olete nime, näiteks „John Smith”, juhuslikuks tähemärkide jadaks räsinud, ei saa inimene seda jada ilma võtmeta kunagi vaadata ja teada, kellele see viitab.
Milline roll on metaandmetel selles?
Metaandmed toimivad „sillana“. Ruumi kokkuhoiuks saate oma põhiandmeid tugevalt tihendada, kuid hoida eraldi, tihendamata metaandmete kihti, mis selgitab, mida andmed esindavad. See võimaldab teil säilitada kõrget efektiivsust, andes samal ajal inimestele kaardi, et mõista, mida nad vaatavad.
Kuidas mõõta tõlgendatavuse kadu?
Ühest numbrit on raske anda, aga seda saab testida, paludes analüütikul teha pöördotsingu. Kui nad suudavad tihendatud väljundit vaadata ja algset sündmust täpselt kirjeldada ilma toorfaili nägemata, on tõlgendatavuse kadu väike. Kui nad lihtsalt oletavad, on see suur.
Otsus
Eelista arhiveeritud logide ja suuremahuliste telemeetriaandmete tihendamise efektiivsust, kui ainus eesmärk on töötlemata andmete kiirus. Keskendu klientidega suhtlemise mõõdikute ja oluliste finants- või juriidiliste otsuste põhjendamiseks kasutatavate andmete tõlgendatavuse kadude minimeerimisele.