big datadatatekniikkaanalytiikkastrategiakoneoppiminen
Pakkaustehokkuus vs. tulkittavuuden menetys
Data-ammattilaiset kohtaavat usein vaikean kompromissin massiivisten datajoukkojen pienentämisen suorituskyvyn parantamiseksi ja datan säilyttämisen ymmärrettävänä ihmisille päätöksentekijöille. Korkea pakkaustehokkuus säästää tallennuskustannuksissa ja nopeuttaa käsittelyä, mutta se voi aiheuttaa tulkittavuuden heikkenemistä, jolloin on lähes mahdotonta jäljittää, miten tietyt syötteet johtivat lopullisiin liiketoimintajohtopäätöksiin.
Korostukset
Tehokkuus on kiinni koneesta; tulkittavuus on kiinni ihmisestä.
Maksimaalinen tehokkuus edellyttää usein datan hyödylliseksi tekevän kontekstin karsimista.
Tulkittavuuden menetys on usein pysyvä, jos alkuperäinen raakadata poistetaan käsittelyn jälkeen.
Täydellisen tehokas tietokanta on hyödytön, jos kukaan ei osaa selittää, mitä numerot tarkoittavat.
Mikä on Pakkaustehokkuus?
Mitta, joka mittaa, kuinka tehokkaasti datan määrää pienennetään suhteessa sen alkuperäiseen kokoon.
Se ilmaistaan tyypillisesti suhteena tai prosenttiosuutena tallennustilan säästymisestä.
Tehokkuus vaihtelee suuresti häviöttömien menetelmien, kuten ZIP:n, ja häviöllisten menetelmien, kuten JPEG:n, välillä.
Nykyaikaiset sarakkeelliset tallennusmuodot, kuten Parquet, tehostavat analyyttisiä kyselyitä merkittävästi.
Korkea tehokkuus alentaa suoraan pilvi-infrastruktuurin kustannuksia ja vähentää verkon viivettä siirtojen aikana.
Tehokkuuden ylärajan sanelee usein tietojoukon entropia tai satunnaisuus.
Mikä on Tulkittavuuden menetys?
Ihmisen kyvyn selittää tai ymmärtää dataa heikkeneminen muunnoksen jälkeen.
Häviötä tapahtuu usein, kun monimutkaista dataa aggregoidaan, tiivistetään tai pelkistetään abstrakteiksi ulottuvuuksiksi.
Se luo "mustan laatikon" vaikutuksen, jossa mittarin taustalla oleva perustelu hämärtyy.
Korkean suorituskyvyn mallien ominaisuussuunnittelussa usein uhrataan selkeys raakatarkkuuden kustannuksella.
Vakava menetys voi johtaa "pimeään dataan", jota on olemassa, mutta jota ei voida tarkastaa harhan tai virheiden varalta.
GDPR:n kaltaiset säännökset edellyttävät tiettyä tulkittavuutta automatisoidulle päätöksenteolle.
Vertailutaulukko
Ominaisuus
Pakkaustehokkuus
Tulkittavuuden menetys
Ensisijainen tavoite
Minimoi jalanjälki
Maksimoi läpinäkyvyys
Resurssien vaikutus
Vähentää varastointikustannuksia
Lisää ihmisen suorittamaan auditointiin kuluvaa aikaa
Tekninen painopiste
Algoritmit ja matematiikka
Logiikka ja konteksti
Vikatila
Tietojen korruptio
Selittämättömät tulokset
Optimointityökalu
Koodaus ja hajauttaminen
Dokumentaatio ja metatiedot
Liiketoiminnan arvo
Toimintanopeus
Strateginen luottamus
Yksityiskohtainen vertailu
Suorituskyky vs. selkeysheiluri
Insinöörit pyrkivät usein maksimaaliseen pakkaustehokkuuteen pitääkseen järjestelmät toiminnassa tehokkaasti ja nopeasti. Kuitenkin, kun datasta tulee abstraktimpaa esimerkiksi pääkomponenttianalyysin (PCA) kaltaisten tekniikoiden avulla, taustalla oleva "miksi" katoaa. Saatat päätyä järjestelmään, joka ennustaa myynnin täydellisesti, mutta ei pysty kertomaan, mikä tietty markkinointikampanja todellisuudessa tuotti tuloja.
Varastointikustannukset vs. sääntelyyn liittyvä riski
Datan kokoaminen pieniksi ja tehokkaiksi yhteenvedoiksi on loistava tapa säästää rahaa AWS-laskussa. Vaara syntyy, kun sääntelyviranomainen tai asiakas pyytää yksityiskohtaista erittelyä tietystä tapahtumasta. Jos pakkaus oli liian aggressiivista, tämä yksityiskohtainen todistusaineisto on menetetty, jolloin yritykselle jää korkea tehokkuus, mutta valtava oikeudellinen tai vaatimustenmukaisuuteen liittyvä päänsärky.
Ulottuvuus ja inhimillinen tekijä
Tehokkuuden lisäämiseen käytetyt tekniikat sisältävät usein muuttujien eli "ulottuvuuksien" määrän vähentämisen tietojoukossa. Vaikka tämä helpottaa matematiikkaa tietokoneelle, se tekee datasta vierasta ihmiselle. Kun tietojoukko on tiivistetty voimakkaasti abstrakteiksi vektoreiksi, analyytikko ei voi enää katsoa riviä ja tunnistaa sitä asiakastapahtumaksi, mikä johtaa intuition täydelliseen menetykseen.
Häviölliset vs. häviöttömät lähestymistavat
Häviötön pakkaus on "kultastandardi" tulkittavuuden säilyttämisessä, koska jokainen bitti voidaan palauttaa täydellisesti. Häviöllinen pakkaus kuitenkin luopuu tarkkuudesta äärimmäisen tehokkuuden hyväksi. Analyytiikassa "häviöllinen" tarkoittaa usein keskiarvojen ottamista keskiarvoista; vaikka tiedostokoko on pieni, menetetään poikkeamat ja vivahteet, jotka usein sisältävät arvokkaimmat liiketoimintatiedot.
Hyödyt ja haitat
Pakkaustehokkuus
Plussat
+Alemmat laitteistokustannukset
+Nopeammat kyselyt
+Helpompi tiedonsiirto
+Pienemmät varmuuskopiointiajat
Sisältö
−CPU-raskas purku
−Piilotetut datakuviot
−Abstraktiokerrokset
−Jäljitettävyysongelmat
Tulkittavuuden menetys
Plussat
+Suojaa yksityisyyttä (joskus)
+Yksinkertaistetut kojelaudat
+Nopeammat korkean tason näkymät
+Poistaa epäolennaisen kohinan
Sisältö
−Tuloksia ei voida auditoida
−Vaikeampi debugata
−Lakien noudattamiseen liittyvät riskit
−Käyttäjien luottamuksen heikkeneminen
Yleisiä harhaluuloja
Myytti
Kaikki tiivistäminen johtaa jonkinlaiseen ymmärryksen menetykseen.
Todellisuus
Häviöttömien pakkausmuotojen avulla voit pienentää dataa menettämättä yhtäkään yksityiskohtaa. Tulkittavuus kärsii vain, jos päätät muuntaa datan muotoon, jota ihmiset eivät voi helposti lukea, kuten binääriblobeiksi tai hajautetuiksi merkkijonoiksi.
Myytti
Sinun tulisi aina säilyttää jokainen raakadata ikuisesti.
Todellisuus
Kaiken säilyttäminen on usein taloudellisesti mahdotonta ja luo "datasuita". Tavoitteena on löytää kompromissi, jossa dataa tiivistetään tarpeeksi tehokkaasti, mutta samalla datan "DNA" säilyy saatavilla tulevia kysymyksiä varten.
Myytti
Tulkittavuus on tärkeää vain datatieteilijöille.
Todellisuus
Ei-tekniset sidosryhmät, kuten markkinointipäälliköt tai toimitusjohtajat, ovat tulkittavuuden heikkenemisen ensisijaisia uhreja. Jos he eivät ymmärrä raportin taustalla olevaa logiikkaa, he eivät todennäköisesti toimi sen tarjoamien tietojen perusteella.
Myytti
Suurempi pakkaus tekee kyselyistä aina nopeampia.
Todellisuus
Ei aina. Jos pakkaus on liian monimutkaista, tietokoneen käyttämä aika tiedon "purkamiseen" voi itse asiassa olla pidempi kuin pienemmän tiedoston lukemisesta säästyvä aika.
Usein kysytyt kysymykset
Miksi tulkittavuus on iso juttu tekoälyssä ja analytiikassa?
Siirtyessämme kohti automatisoituja järjestelmiä meidän on tiedettävä, että tietokone teki päätöksen oikeista syistä. Jos malli on erittäin tehokas, mutta siitä puuttuu tulkittavuus, emme voi sanoa, onko se puolueellinen vai yksinkertaisesti väärä, ennen kuin on liian myöhäistä. Se on ero sen välillä, tietääkö se "toimii", vai tietääkö se "miksi se toimii".
Voinko saavuttaa sekä korkean tehokkuuden että hyvän tulkittavuuden?
Se on jatkuvaa tasapainoilua, mutta teknologiat, kuten saraketallennus (Parquet/ORC), pääsevät lähelle tätä. Ne pakkaavat dataa uskomattoman hyvin ja mahdollistavat samalla tiettyjen "ihmisen luettavien" sarakkeiden kyselyn ilman koko tiedoston purkamista. Datan kokoamisessa tai "ryhmittelyssä" on kuitenkin oltava varovainen.
Mikä on tässä yhteydessä "musta laatikko" -ongelma?
Musta laatikko viittaa tilanteeseen, jossa tulkittavuushävikki on niin suuri, että näkee, mikä menee sisään ja mikä tulee ulos, mutta keskiosa on mysteeri. Analytiikassa näin tapahtuu usein, kun dataa koodataan voimakkaasti tilan säästämiseksi tai kun se suoritetaan monimutkaisten algoritmien läpi, jotka eivät tuota ihmisystävällistä logiikkaa.
Kyllä, tietojen yhdistäminen on pohjimmiltaan häviöllinen pakkausmuoto. Muuttamalla 1 000 yksittäistä myyntiä yhdeksi päivittäiseksi kokonaissummaksi olet pienentänyt datan kokoa 99,9 %. Olet saavuttanut valtavasti tehokkuutta, mutta olet menettänyt mahdollisuuden nähdä, mitkä yksittäiset asiakkaat ostivat mitäkin tuotteita.
Miten tämä vaikuttaa pilvitallennuslaskuuni?
Suoraan. Korkea pakkaustehokkuus tarkoittaa, että maksat vähemmän gigatavuista tallennustilaa ja vähemmän datan "ulosvirtaa" siirrettäessä tiedostoja alueiden välillä. Jos tulkittavuushävikki on kuitenkin suuri, saatat päätyä maksamaan enemmän "työtunneissa", kun analyytikon on käytettävä kolme päivää yrittäessään rekonstruoida puuttuvaa yksityiskohtaa.
Onko tulkittavuuden menetys sama asia kuin tiedon korruptoituminen?
Eivät, ne ovat erilaisia. Korruptio tarkoittaa, että data on rikki eikä tietokone pysty lukemaan sitä. Tulkittavuuden menetys tarkoittaa, että data on täysin kunnossa tietokoneelle, mutta ihmiselle se ei ole enää järkevää. Tietokone on tyytyväinen; analyytikko on hämmentynyt.
Mitkä toimialat välittävät tästä kompromissista eniten?
Rahoitus ja terveydenhuolto ovat listan kärjessä. Näillä aloilla tehokkuus on hyvä asia, mutta kyky selittää "lainan epääminen" tai "lääketieteellinen diagnoosi" on lakisääteinen vaatimus. He käyttävät usein enemmän rahaa tallennustilaan vain varmistaakseen, etteivät menetä elintärkeää tulkittavuutta.
Auttaako datan hajautus tehokkuudessa?
Hajauttaminen voi tehdä datasta hyvin yhdenmukaista ja tehokasta tietokoneen haettavaksi, mutta se on tulkittavuuden menetyksen äärimmäinen muoto. Kun nimi, kuten "Matti Smith", on tiivistetty satunnaiseksi merkkijonoksi, ihminen ei voi koskaan katsoa kyseistä merkkijonoa ja tietää, kehen se viittaa ilman avainta.
Mikä on metadatan rooli tässä?
Metadata toimii "siltana". Voit pakata päädataa voimakkaasti säästääksesi tilaa, mutta säilyttää erillisen, pakkaamattoman metatietokerroksen, joka selittää, mitä data edustaa. Näin voit ylläpitää korkeaa tehokkuutta ja samalla antaa ihmisille kartan, josta he ymmärtävät, mitä he katsovat.
Miten mittaan tulkittavuuden menetystä?
Yhden numeron antaminen sille on vaikeaa, mutta voit testata sitä pyytämällä analyytikkoa suorittamaan käänteisen haun. Jos he pystyvät tarkastelemaan pakattua tulostetta ja kuvaamaan alkuperäisen tapahtuman tarkasti näkemättä raakatiedostoa, tulkittavuushävikki on pieni. Jos he vain arvailevat, se on suuri.
Tuomio
Priorisoi pakkaustehokkuutta arkistoitujen lokien ja suurten tietomäärien telemetriatietojen osalta, joissa raakadatan nopeus on ainoa tavoite. Keskity minimoimaan tulkittavuushäviöt asiakkaille suunnatuissa mittareissa ja kaikissa muissa tiedoissa, joita käytetään tärkeiden taloudellisten tai oikeudellisten päätösten perustelemiseen.