Kui ma kasutan tohutut andmestikku, siis eelarvamused lihtsalt tühistatakse.
Tegelikult sisaldavad suuremad andmekogumid sageli peenemaid, süsteemseid eelarvamusi, mida mudelid isegi paremini võimendavad. Maht ei asenda mitmekesisust ega õiglust.
Masinõppe maailmas on andmekogumid harva neutraalsed. Eelarvamuste vähendamine hõlmab ennetavat kavandamist ebaõiglaste moonutuste tuvastamiseks ja neutraliseerimiseks, samas kui eelarvamuste võimendamine on ohtlik nähtus, kus mudelid tegelikult liialdavad olemasolevaid ebavõrdsusi, tehes sageli ennustusi, mis on oluliselt diskrimineerivamad kui vigased andmed, mille põhjal neid treeniti.
Strateegilised tehnilised sekkumised, mille eesmärk on tuvastada, leevendada ja tasakaalustada süsteemset ebaõiglust treeningandmetes ja mudeli väljundites.
Soovimatu protsess, kus masinõppe algoritmid tugevdavad ja üleindekseerivad andmetes leiduvaid olemasolevaid stereotüüpseid mustreid.
| Funktsioon | Andmekogumi eelarvamuste vähendamine | Andmestiku eelarvamuse võimendamine |
|---|---|---|
| Peamine eesmärk | Saavutada õiglaseid ja õiglasi tulemusi | Maksimeeri ennustuskindlust (tahtmatult) |
| Mõju andmetrendidele | Tasandab aktiivselt ebaõiglasi korrelatsioone | Liialdab ja kinnistab olemasolevaid ebatäpsusi |
| Metoodika | Andmete täiendamine, ümberkaalumine ja auditid | Algoritmilised otseteed ja induktiivne eelarvamus |
| Ressursside intensiivsus | Kõrge; nõuab asjatundlikku järelevalvet ja kureerimist | Madal; juhtub automaatselt, kui seda ei kontrollita |
| Regulatiivne mõju | Aitab järgida EL-i tehisintellekti seadust ja isikuandmete kaitse üldmäärust | Suurendab juriidiliste ja eetiliste karistuste riski |
| Pikaajaline tulemus | Tugev, üldistatav ja usaldusväärne tehisintellekt | Kallutatud, diskrimineerivad ja habras mudelid |
Eelarvamuste vähendamine on raske ülesanne, sest sageli tuleb kõigi gruppide õiglase kohtlemise tagamiseks ohverdada pisut algset täpsust. Teisest küljest toimub võimendamine loomulikult, kuna algoritmid on loodud leidma kõige tõhusam tee õige vastuseni ja kahjuks pakuvad stereotüübid sageli statistiliselt „lihtsat” teed, mida mudel üle kasutab.
Redutseerimine püüab parandada ajaloolisi vigu – näiteks krediidiskoori mudeleid, mis karistavad teatud piirkondi – andmekaalude käsitsi kohandamise teel. Amplifikatsioon võtab needsamad ajaloolised vead ja muudab need digitaalseteks seadusteks; kui mudel näeb, et teatud rühmale on ajalooliselt laenudest keeldutud, võib see otsustada, et sellele rühmale tuleks *alati* laenudest keelduda, muutes tuleviku veelgi piiravamaks kui mineviku.
Insenerid võitlevad eelarvamuste vähendamisega kolmes etapis: eeltöötlus (andmete puhastamine), töötlemise ajal (matemaatiliste arvutuste muutmine treenimise ajal) ja järeltöötlus (lõpptulemuste kohandamine). Võimendamine hiilib tavaliselt sisse töötlemise ajal, kus mudeli soov minimeerida viga paneb selle ignoreerima vähemusnäidete „müra” enamuse „signaali” kasuks.
Eelarvamuste võimendamise kõige hirmutavam osa on selle võime aja jooksul kasvada. Kui kallutatud värbamistööriist filtreerib välja mitmekesised kandidaadid, muutuvad „edukate” töötajate andmed veelgi vähem mitmekesiseks, mis omakorda õpetab tööriista järgmist versiooni olema veelgi piiravam. Õiged vähendamise strateegiad murravad selle tsükli, tutvustades „vastupidiseid” näiteid, mis seavad kahtluse alla mudeli eeldused.
Kui ma kasutan tohutut andmestikku, siis eelarvamused lihtsalt tühistatakse.
Tegelikult sisaldavad suuremad andmekogumid sageli peenemaid, süsteemseid eelarvamusi, mida mudelid isegi paremini võimendavad. Maht ei asenda mitmekesisust ega õiglust.
Algoritmid on neutraalsed, sest nad on lihtsalt matemaatika.
Matemaatika on neutraalne, aga eesmärgid, mida me algoritmidele anname – näiteks „täpsuse maksimeerimine” – toimivad koos kallutatud andmetega, andes kallutatud tulemusi. „Neutraalne” tee on sageli kõige diskrimineerivam.
Eelarvamuste vähendamine on tehisintellekti jaoks lihtsalt „poliitiline korrektsus”.
Tegelikult on see tehniline vajadus; mudelid, mis ei vähenda eelarvamusi, ebaõnnestuvad reaalses maailmas sageli, kuna nad ei suuda mitmekesiseid sisendeid käsitleda, mis toob kaasa kõrgetasemelisi ebaõnnestumisi ja tulude vähenemist.
„Tundlike” veergude, näiteks rassi või soo, eemaldamine peatab eelarvamused.
See on „õiglus läbi pimeduse“ ja see toimib harva. Mudelid saavad neid tunnuseid hõlpsasti järeldada selliste asendusandmete kaudu nagu postiindeksid, ostuharjumused või isegi lauseehitus.
Eelarvamuste vähendamine on iga mudeli puhul, mis suhtleb inimestega või teeb elu muutvaid otsuseid, vajalik eetiline ja tehniline nõue. Kuigi võimendamine on enamiku optimeerimata algoritmide vaikekäitumine, on aktiivne vähendamine ainus viis luua tehisintellekt, mis on tänapäeva maastikus nii seaduslik kui ka usaldusväärne.
Õige jälgitavusstrateegia valimine eeldab andmete kogumise ja töötlemise mõistmist. Kui aegridade jälgimine jälgib numbrilisi süsteemi mõõdikuid regulaarsete intervallidega, et paljastada pikaajalisi tervisetrende, siis sündmustepõhine jälgimine jäädvustab koheselt diskreetseid oleku muutusi, et käivitada kohesed programmilised vastused, muutes nende arhitektuurilised kujundused põhimõtteliselt erinevaks.
Kaasaegse analüütika keerulises maastikus on tõe eristamine segadusest ülim väljakutse. Samal ajal kui andmemüra filtreerimine keskendub juhuslike interferentside eemaldamisele, et paljastada puhas baasjoon, võimendavad signaali võimendamise meetodid aktiivselt peeneid mustreid, mis muidu võiksid kahe silma vahele jääda, tagades, et kriitilisi trende ei neelaks alla taustakaos.
See võrdlus uurib andmemüra ja signaali usaldusväärsuse vahelist kriitilist dünaamikat ärianalüütikas. Kuigi andmemüra toob kaasa juhuslikke kõikumisi, vigu ja ebaolulist teavet, mis pilvepõhiseid hinnanguid mõjutavad, esindab signaali usaldusväärsus usaldusväärseid alusmustreid, mis on vajalikud täpsete masinõppe ennustuste ja kindlate strateegiliste otsuste tegemiseks.
Andmepõhine idufirmade analüüs tugineb idufirmade hindamiseks mõõdetavatele näitajatele nagu kasv, tulu ja klientide hoidmine, samas kui narratiivis põhinev analüüs keskendub lugude jutustamisele, visioonile ja kvalitatiivsetele signaalidele. Mõlemat lähenemisviisi kasutavad investorid ja asutajad laialdaselt potentsiaali hindamiseks, kuid need erinevad selle poolest, kuidas tõendeid tõlgendatakse ja kuidas otsuseid põhjendatakse.
Kõva analüütika ja loomingulise sisetunde vahel valimine kujundab teie digitaalse toote kogu kasutajakogemust. Samal ajal kui andmepõhised teadmised pakuvad objektiivset valideerimist konversioonide maksimeerimiseks, tugineb intuitsioonil põhinev disain kogenud ekspertide kogemustele, et käivitada murranguline innovatsioon seal, kuhu mõõdikud veel ei küündi.