Ja es izmantošu milzīgu datu kopumu, neobjektivitāte vienkārši sevi atcels.
Patiesībā lielākās datu kopās bieži vien ir smalkākas, sistēmiskas neobjektivitātes, kuras modeļi spēj vēl labāk pastiprināt. Apjoms neaizstāj daudzveidību vai taisnīgumu.
Mašīnmācīšanās pasaulē datu kopas reti ir neitrālas. Neobjektivitātes mazināšana ietver proaktīvu inženieriju, lai identificētu un neitralizētu netaisnīgas novirzes, savukārt neobjektivitātes pastiprināšana ir bīstama parādība, kad modeļi faktiski pārspīlē esošās nevienlīdzības, bieži vien izdarot prognozes, kas ir ievērojami diskriminējošākas nekā kļūdainie dati, uz kuriem tie tika apmācīti.
Stratēģiskas tehniskas intervences, kuru mērķis ir identificēt, mazināt un līdzsvarot sistēmisku netaisnību apmācības datos un modeļa rezultātos.
Neparedzēts process, kurā mašīnmācīšanās algoritmi stiprina un pārindeksē esošos stereotipiskos modeļus, kas atrodami datos.
| Funkcija | Datu kopas neobjektivitātes samazināšana | Datu kopas nobīdes pastiprināšana |
|---|---|---|
| Galvenais mērķis | Sasniegt taisnīgus un taisnīgus rezultātus | Maksimāli palielināt paredzamo ticamību (netīši) |
| Ietekme uz datu tendencēm | Aktīvi izlīdzina negodīgas korelācijas | Pārspīlē un stingri iekodē esošās neprecizitātes |
| Metodoloģija | Datu papildināšana, atkārtota svēršana un auditi | Algoritmiskie saīsinājumi un induktīvā neobjektivitāte |
| Resursu intensitāte | Augsts; nepieciešama eksperta uzraudzība un pārvaldība | Zems; notiek automātiski, ja netiek pārbaudīts |
| Regulējošā ietekme | Palīdz ievērot ES Mākslīgā intelekta likumu un GDPR | Palielina juridisko un ētisko sodu risku |
| Ilgtermiņa rezultāts | Stabils, vispārināms un uzticams mākslīgais intelekts | Šķirti, diskriminējoši un trausli modeļi |
Neobjektivitātes mazināšana ir grūts uzdevums, jo bieži vien ir jāupurē neliela precizitātes daļa, lai nodrošinātu, ka modelis pret visām grupām izturas taisnīgi. No otras puses, pastiprināšana notiek dabiski, jo algoritmi ir izstrādāti, lai atrastu visefektīvāko ceļu uz pareizo atbildi, un diemžēl stereotipi bieži vien nodrošina statistiski "vieglu" ceļu, ko modelis pārāk izmanto.
Redukcija mēģina labot vēsturiskas kļūdas, piemēram, kredītreitinga modeļus, kas soda noteiktas apkaimes, manuāli pielāgojot datu svarus. Amplifikācija ņem šīs pašas vēsturiskās kļūdas un pārvērš tās digitālos likumos; ja modelis redz, ka noteiktai grupai vēsturiski ir atteikti aizdevumi, tas var izlemt, ka šai grupai *vienmēr* ir jāatsaka, padarot nākotni vēl ierobežojošāku nekā pagātni.
Inženieri cīnās ar neobjektivitātes samazināšanu trīs posmos: pirmapstrāde (datu attīrīšana), apstrādes laikā (matemātisko izteiksmju maiņa apmācības laikā) un pēcapstrāde (gala rezultātu pielāgošana). Pastiprināšana parasti notiek “apstrādes” fāzē, kur modeļa vēlme samazināt kļūdu liek tam ignorēt mazākuma piemēru “troksni” par labu vairākuma piemēru “signālam”.
Visbiedējošākā neobjektivitātes pastiprināšanas daļa ir tās spēja laika gaitā pieaugt. Ja neobjektīvs pieņemšanas darbā rīks atsijā dažādus kandidātus, dati par "veiksmīgajiem" darbiniekiem kļūst vēl mazāk daudzveidīgi, kas savukārt iemāca nākamajai rīka versijai būt vēl ierobežojošākai. Pareizas samazināšanas stratēģijas pārtrauc šo ciklu, ieviešot "hipotekatus" piemērus, kas apstrīd modeļa pieņēmumus.
Ja es izmantošu milzīgu datu kopumu, neobjektivitāte vienkārši sevi atcels.
Patiesībā lielākās datu kopās bieži vien ir smalkākas, sistēmiskas neobjektivitātes, kuras modeļi spēj vēl labāk pastiprināt. Apjoms neaizstāj daudzveidību vai taisnīgumu.
Algoritmi ir neitrāli, jo tie ir tikai matemātika.
Matemātika ir neitrāla, taču mērķi, ko mēs dodam algoritmiem, piemēram, "maksimāli palielināt precizitāti", mijiedarbojas ar neobjektīviem datiem, radot neobjektīvus rezultātus. "Neitrālais" ceļš bieži vien ir visdiskriminējošākais.
Aizspriedumu mazināšana ir tikai mākslīgā intelekta “politiskā korektība”.
Tā patiesībā ir tehniska nepieciešamība; modeļi, kas nesamazina neobjektivitāti, reālajā pasaulē bieži vien neizdodas, jo tie nespēj apstrādāt dažādus ievades datus, kā rezultātā rodas augsta līmeņa neveiksmes un zaudēti ieņēmumi.
Noņemot “jutīgas” kolonnas, piemēram, par rasi vai dzimumu, tiek novērsta aizspriedumu izplatība.
Tas ir "taisnīgums caur aklumu", un tas reti darbojas. Modeļi var viegli secināt šīs iezīmes, izmantojot aizstājējdatus, piemēram, pasta indeksus, iepirkšanās paradumus vai pat teikumu struktūru.
Neobjektivitātes mazināšana ir nepieciešama ētiska un tehniska prasība jebkuram modelim, kas mijiedarbojas ar cilvēkiem vai pieņem dzīvi mainošus lēmumus. Lai gan pastiprināšana ir vairuma neoptimizēto algoritmu noklusējuma uzvedība, aktīva samazināšana ir vienīgais veids, kā izveidot mākslīgo intelektu, kas ir gan likumīgs, gan uzticams mūsdienu vidē.
Kamēr astroloģiskā prognozēšana saista debesu ciklus ar cilvēku pieredzi, lai iegūtu simbolisku nozīmi, statistiskā prognozēšana analizē empīriskus vēsturiskus datus, lai novērtētu nākotnes skaitliskās vērtības. Šis salīdzinājums pēta plaisu starp seno, uz arhetipiem balstīto personīgās pārdomu sistēmu un moderno, uz datiem balstīto metodoloģiju, ko izmanto objektīvai lēmumu pieņemšanai uzņēmējdarbībā un zinātnē.
Šis salīdzinājums pēta aizraujošo plaisu starp senajiem debesu novērojumiem un mūsdienu paredzošo analītiku. Kamēr astroloģiskie tranzīti izmanto planētu ciklus, lai interpretētu personīgās izaugsmes fāzes, dzīves notikumu varbūtības modeļi balstās uz lieliem datiem un statistikas algoritmiem, lai prognozētu konkrētus pagrieziena punktus, piemēram, karjeras izmaiņas vai veselības aprūpes vajadzības.
Lai gan abas metodoloģijas kalpo digitālās veiktspējas optimizēšanai, tās darbojas uz principiāli atšķirīgiem tehnoloģiju slāņiem. Ātrā testēšana koncentrējas uz lingvistisko ievaddatu pilnveidošanu, kas vada ģeneratīvos mākslīgā intelekta modeļus, savukārt A/B testēšana nodrošina stingru statistisko sistēmu divu atšķirīgu tīmekļa lapas vai lietotnes funkcijas versiju salīdzināšanai, lai noskaidrotu, kura no tām labāk rezonē ar reāliem cilvēkiem.
Izvēle starp augstas frekvences datiem un apkopotiem datiem ir būtisks kompromiss analītikā. Lai gan neapstrādātas, mazāk nekā sekundes laikā apkopotas darījumu un sensoru plūsmas piedāvā nepārspējamu ieskatu tūlītējā uzvedībā un tirgus mikrostruktūrās, saspiesti laika apkopojumi novērš milzīgu statistisko troksni un lielas infrastruktūras prasības, lai atklātu skaidras, strukturālas ilgtermiņa tendences.
Izvēle starp automatizētu modeļu izsekošanu un manuālu eksperimentu izsekošanu būtiski ietekmē datu zinātnes komandas ātrumu un reproducējamību. Kamēr automatizācija izmanto specializētu programmatūru, lai nemanāmi uztvertu katru hiperparametru, metriku un artefaktu, manuālā izsekošana balstās uz cilvēka rūpību, izmantojot izklājlapas vai Markdown failus, radot krasu kompromisu starp iestatīšanas ātrumu un ilgtermiņa mērogojamu precizitāti.