Prognozavimo tikslumas matuoja, kaip gerai modelio prognozės atitinka realaus pasaulio rezultatus, o modelio atsparumas matuoja sistemos gebėjimą išlaikyti našumą susidūrus su priešiškomis atakomis, duomenų dreifais ar aplinkos pokyčiais. Abu šie rodikliai lemia, kaip vertiname dirbtinio intelekto patikimumą, tačiau jie dažnai nukreipia modelio dizainą skirtingomis kryptimis.
Akcentai
Akademinėse lyderių lentelėse dominuoja prognozavimo tikslumas, tačiau gamybinėje aplinkoje vis dažniau laimi atsparūs modeliai.
Priešingos praktikos pavyzdžiai gali sumažinti didelio tikslumo modelio našumą iki atsitiktinių spėjimų, o pokyčiai žmonėms nematomi.
Koncepcijos poslinkis laikui bėgant tyliai mažina tikslumą, todėl ilgaamžėse sistemose būtina stebėti atsparumą.
Visame pasaulyje reguliavimo sistemos, taikomos didelės rizikos dirbtiniam intelektui, keičiasi nuo vien tikslumo prie tikslumo ir atsparumo reikalavimų.
Kas yra Nuspėjamasis tikslumas?
Mašininio mokymosi modelio prognozių atitikimo faktiniams stebimiems rezultatams laipsnis.
Prognozavimo tikslumas paprastai apskaičiuojamas kaip teisingų prognozių ir bendro modelio atliktų prognozių skaičiaus santykis.
Klasifikavimo užduotyse tikslumas gali būti klaidinantis, kai klasės yra nesubalansuotos, todėl buvo sukurti tokie rodikliai kaip F1 balas ir AUC-ROC.
Gilaus mokymosi modeliai dažnai pasiekia viršžmogišką prognozavimo tikslumą atliekant siauras užduotis, tokias kaip vaizdų atpažinimas ir medicininė diagnozė.
Didelis nuspėjamasis mokymo duomenų tikslumas negarantuoja gero apibendrinimo nematomiems duomenims, ši problema vadinama pertekliniu pritaikymu.
Tokie lyginamosios analizės kaip „ImageNet“ ir „GLUE“ paskatino spartų kompiuterinio matymo ir natūralios kalbos apdorojimo nuspėjamojo tikslumo pagerėjimą.
Kas yra Modelio atsparumas?
Modelio gebėjimas išlaikyti priimtiną našumą esant stresui, trikdžiams ar kintančioms sąlygoms.
Modelio atsparumas apima atsparumą priešiškiems pavyzdžiams – subtiliems įvesties trikdžiams, skirtiems klaidingam klasifikavimui sukelti.
Atsparūs modeliai išlaiko našumą koncepcijos dreifo metu, kai tikslinių kintamųjų statistinės savybės laikui bėgant keičiasi.
Modelio atsparumui pagerinti dažniausiai naudojami tokie metodai kaip priešpriešinis mokymas, iškritimas ir ansamblio metodai.
Atsparumo testavimas dažnai apima testavimą nepalankiausiomis sąlygomis su triukšmingais duomenimis, pasiskirstymo poslinkiais ir kraštutiniais atvejais, kurie nukrypsta nuo mokymo sąlygų.
Saugumo požiūriu svarbiose srityse, tokiose kaip autonominis vairavimas ir sveikatos priežiūra, modelio atsparumas gali būti svarbesnis nei nedidelis prognozavimo tikslumo padidėjimas.
Palyginimo lentelė
Funkcija
Nuspėjamasis tikslumas
Modelio atsparumas
Pagrindinis dėmesys
Prognozių apie laukiamus duomenis teisingumas
Stabilumas netikėtomis ar nepalankiomis sąlygomis
Pagrindinės grėsmės
Per didelis pritaikymas, imties šališkumas, nepakankamos savybės
Priešiškos atakos, duomenų dreifas, sistemos gedimai
Stresinis testavimas, raudonojo testavimo (angl. red teaming) taikymas, patikimumo auditai
Optimizavimo kompromisas
Gali paaukoti atsparumą siekiant maksimalaus našumo naudojant švarius duomenis
Gali būti priimtinas mažesnis bazinis tikslumas siekiant didesnio patikimumo
Tipinis taikymas
Rekomendacijų sistemos, prognozavimas, reitingavimo sistemos
Autonominės sistemos, sukčiavimo aptikimas, medicininis dirbtinis intelektas
Pramonės standartai
Tikslumas, preciziškumas, atkūrimas, F1 balas, MAE, RMSE
Atsparumo sertifikavimas, konkurenciniai testų rinkiniai, atsparumo sistemos
Tyrimo akcentavimas
Naujos architektūros, didesni duomenų rinkiniai, hiperparametrų derinimas
Gynybiniai mokymai, neapibrėžtumo kiekybinis įvertinimas, paskirstymo ribų aptikimas
Išsamus palyginimas
Pagrindinis tikslas ir apibrėžimas
Nuspėjamasis tikslumas atsako į paprastą klausimą: kaip dažnai šis modelis yra teisingas? Jis naudojamas kaip numatytasis sėkmės rodiklis daugumoje mašininio mokymosi procesų – nuo klientų praradimo prognozavimo iki ligų diagnozavimo. Tačiau modelio atsparumas užduoda sunkesnį klausimą: ar modelis išlieka teisingas, kai kas nors nutinka ne taip? Tai apima viską – nuo kameros aptaškymo purvu iki piktavalio veikėjo, sukuriančio apgaulingus duomenis.
Realaus pasaulio našumo spragos
Modelis, kurio tikslumas laboratorinėmis sąlygomis siekia 99 %, gamyboje gali sugriūti. Tyrimai parodė, kad vaizdų klasifikatorius gali apgauti nepastebimi pikselių pokyčiai, o NLP modeliai sugenda susidūrę su rašybos klaidomis ar dialekto variacijomis. Į atsparumą orientuota inžinerija numato šiuos gedimus, o ne tikisi, kad jų nebus. Atotrūkis tarp etaloninio tikslumo ir realaus pasaulio patikimumo išlieka viena brangiausių dirbtinio intelekto problemų.
Kompromisai kuriant modelius
Siekis maksimalaus prognozavimo tikslumo dažnai veda prie sudėtingų, per daug parametruotų modelių, kurie įsimena mokymo šablonus. Šie modeliai paprastai yra trapūs – nedideli įvesties pakeitimai duoda labai skirtingus rezultatus. Paprastesni modeliai arba tie, kurie apmokyti naudojant reguliarizavimą ir prieštaringų pavyzdžių analizę, gali gauti šiek tiek mažiau rezultatų švariuose etalonuose, tačiau diegimo metu jie pasirodo esą daug patikimesni. Komandos turi nuspręsti, kuris rodiklis atitinka jų rizikos toleranciją.
Vertinimo metodikos
Tikslumas vertinamas taikant nusistovėjusius protokolus: padalinkite duomenis, apmokykite, išbandykite, galbūt atlikite kryžminį patvirtinimą. Atsparumo vertinimas yra painesnis ir kūrybiškesnis. Inžinieriai gali įterpti Gauso triukšmą, imituoti jutiklių degradaciją arba pasamdyti raudonąsias komandas, kad šios atakuotų modelį. Tokios organizacijos kaip NIST pradėjo kurti standartizuotus patikimumo testus, tačiau šioje srityje trūksta universalių kriterijų, kuriais pasižymi tikslumas.
Verslo ir saugos pasekmės
Filmų rekomendavimo sistemai nedidelis tikslumo sumažėjimas mažai ką reiškia – vartotojai gali matyti šiek tiek mažiau aktualų pasiūlymą. Autonominėse transporto priemonėse ar atliekant vėžio patikras atsparumo sutrikimai gali būti mirtini. Reguliavimo institucijos vis dažniau reikalauja modelio atsparumo įrodymų, o ne tik tikslumo ataskaitų. ES Dirbtinio intelekto įstatymas ir FDA gairės dėl dirbtinio intelekto pagrįstų medicinos prietaisų pabrėžia patikimumą ir stebėseną po diegimo.
Privalumai ir trūkumai
Nuspėjamasis tikslumas
Privalumai
+Lengva išmatuoti ir perduoti informaciją
+Suinteresuotosios šalys plačiai supranta
+Siekia aiškių optimizavimo tikslų
+Įgalina tiesioginį modelių palyginimą
Pasirinkta
−Ignoruoja realaus pasaulio paskirstymo pokyčius
−Gali paskatinti perteklinį pritaikymą
−Klaidinantis dėl nesubalansuotų duomenų
−Nieko nesako apie gedimo režimus
Modelio atsparumas
Privalumai
+Susidoroja su netikėtomis realaus pasaulio sąlygomis
+Sumažina katastrofiškų gedimų riziką
+Sukuria vartotojų ir reguliuotojų pasitikėjimą
+Prailgina efektyvų modelio gyvavimo laiką
Pasirinkta
−Sunkiau tiksliai įvertinti
−Gali sumažinti maksimalų tikslumą
−Reikalingas sudėtingesnis mokymas
−Trūksta universalių etalonų
Dažni klaidingi įsitikinimai
Mitas
Didesnis prognozavimo tikslumas praktikoje visada reiškia geresnį modelį.
Realybė
Modelis, pasižymintis šiek tiek mažesniu tikslumu, bet didesniu atsparumu, dažnai suteikia daugiau verslo vertės. Statinių testų rinkiniuose išmatuotas tikslumas neatspindi, kaip modeliai elgiasi, kai įvesties duomenys nukrypsta nuo mokymo skirstinių, o tai ir lemia daugumą realaus pasaulio gedimų.
Mitas
Modelio atsparumas svarbus tik saugumo požiūriu kritinėms programoms.
Realybė
Kiekvienas įdiegtas modelis susiduria su kintančiais duomenimis. Mažmeninės prekybos paklausos prognozavimo modelis, kuris puikiai veikė 2019 m., greičiausiai nepasiteisino pandemijos laikų apsipirkimo pamainų metu. Atsparumas lemia, ar modelis prisitaiko, ar tampa technine skola.
Mitas
Galite saugiai optimizuoti tikslumą ir atsparumą vienu metu be kompromisų.
Realybė
Tyrimai nuolat rodo prieštaravimus tarp šių tikslų. Priešingybės mokymai, pagrindinė atsparumo technika, paprastai sumažina švarių duomenų tikslumą keliais procentiniais punktais. Optimali pusiausvyra priklauso nuo taikymo konteksto.
Mitas
Atsparumas – tai tiesiog gynyba nuo įsilaužėlių.
Realybė
Priešiškos atakos yra viena iš daugelio atsparumo problemų. Natūralūs trikdžiai, tokie kaip jutiklių gedimai, oro sąlygų poveikis kameroms, žmogaus klaidos įvedant duomenis ir laipsniškas koncepcijos pokytis, lemia visą bandymų modelio atsparumą. Grėsmių sritis yra platesnė nei vien kibernetinis saugumas.
Mitas
Jei modelis sėkmingai praeina patvirtinimą, jis bus pakankamai atsparus.
Realybė
Patvirtinimo rinkiniai paprastai tiksliai atspindi mokymo duomenis. Atsparumo sutrikimai atsiranda būtent ten, kur bandymo sąlygos nukrypsta nuo šio patogaus sutapimo. Būtinas specialus atsparumo testavimas, viršijantis standartinį patvirtinimą.
Dažnai užduodami klausimai
Kas yra nuspėjamasis tikslumas mašininio mokymosi srityje?
Prognozavimo tikslumas reiškia, kaip dažnai modelio prognozės atitinka faktinius rezultatus. Klasifikuojant tai tiesiog teisingos prognozės, padalytos iš bendros prognozės. Regresijoje panašūs rodikliai, tokie kaip vidutinė absoliuti paklaida arba R kvadratas, atlieka panašius vaidmenis. Nors tikslumas yra intuityvus, jis vien neatskiria klaidų tipų ir neatsižvelgia į klasės disbalansą.
Kuo skiriasi modelio atsparumas nuo modelio patikimumo?
Šie terminai gerokai sutampa. Patvarumas paprastai reiškia našumą esant įvesties trikdžiams, o atsparumas apima platesnį gebėjimą atsigauti po nepalankių sąlygų arba prie jų prisitaikyti, įskaitant sistemos gedimus, duomenų perdavimo kanalų problemas ir koncepcijos poslinkį. Kai kurie tyrėjai šiuos terminus vartoja pakaitomis, tačiau atsparumas turi labiau sisteminę, visapusišką konotaciją.
Ar modelis gali pasižymėti dideliu tikslumu, bet mažu atsparumu?
Be abejo, ir tai stebėtinai įprasta. Gilieji neuroniniai tinklai dažnai pasiekia itin tikslų tikslumą, tačiau katastrofiškai sugenda esant šiek tiek modifikuotiems įvesties duomenims. Garsus pavyzdys: vaizdų klasifikatoriai, kurie teisingai pažymi pandą, o tada, pridėję nepastebimą triukšmą, klaidingai klasifikuoja ją kaip giboną. Tikslumo ir atsparumo atotrūkis yra pagrindinis tyrimų objektas.
Kokie metodai pagerina modelio atsparumą?
Priešingos simuliacijos mokymai modelius veikia su trikdžiais. Ansamblių metodai sujungia kelis modelius, kad sumažintų vieno taško klaidas. Reguliarizacijos metodai, tokie kaip iškritimas, padeda išvengti per didelio pritaikymo. Neapibrėžtumo kiekybinis įvertinimas padeda modeliams atpažinti, kada jie neturėtų pasitikėti savo prognozėmis. Domenų atsitiktinumas ir duomenų papildymas praplečia mokymo pasiskirstymą.
Kodėl priešininkų treniruotės kartais sumažina tikslumą?
Priešingos sistemos mokymas optimizuoja blogiausio, o ne vidutinio atvejo našumą. Modelis išmoksta gintis nuo atakų, o ne idealiai pritaikyti švarius duomenis. Toks modelio pajėgumų perskirstymas paprastai sumažina nepriekaištingus etaloninius balus keliais taškais, tuo pačiu žymiai pagerindamas veikimą esant stresui. Ar šis kompromisas vertas dėmesio, priklauso nuo diegimo konteksto.
Kaip matuojate modelio atsparumą?
Skirtingai nuo tikslumo, atsparumas neturi vieno skaičiaus. Įprasti metodai apima priešiškų atakų sėkmės rodiklius, našumo blogėjimo kreives didėjant triukšmui, už paskirstymo ribų aptikimo rodiklius ir streso testus, imituojančius aparatinės įrangos gedimus arba duomenų perdavimo kanalų sugadinimą. Nauji tokių organizacijų kaip NIST standartai siekia užtikrinti didesnį atsparumo vertinimo nuoseklumą.
Ar prognozavimo tikslumas vis dar svarbus, jei teikiau pirmenybę atsparumui?
Taip – atsparumas be bazinių kompetencijų yra beprasmis. Modelis, kuris užtikrintai pateikia neteisingus atsakymus visomis sąlygomis, nėra atsparus; jis tiesiog nuolat blogas. Tikslumas sukuria teisingumo pagrindą, kurį vėliau apsaugo atsparumas. Tikslas yra tikslus ir atsparus, o ne atsparumas vietoj tikslumo.
Kurioms pramonės šakoms labiausiai rūpi modelių atsparumas?
Autonominis transportas, sveikatos apsauga, finansai ir gynyba pirmauja. Bet kuri sritis, kurioje modelių gedimai sukelia žalą, reguliavimo institucijų tikrinimą ar didelius finansinius nuostolius, reikalauja atsparumo. Net ir mažiau rizikingos pramonės šakos vis labiau teikia pirmenybę atsparumui, nes dirbtinis intelektas tampa integruotas į klientams skirtus produktus, kur svarbi prekės ženklo reputacija.
Kaip sąvokų poslinkis veikia tikslumo ir atsparumo aptarimą?
Koncepcijos poslinkis įvyksta, kai laikui bėgant keičiasi įvesties ir išvesties santykis – įsivaizduokite šlamšto filtrus, susiduriančius su nauja sukčiavimo taktika. Didelio pradinio tikslumo modelis blogėja be atsparumo mechanizmų, tokių kaip nuolatinis stebėjimas ir perkvalifikavimas. Atsparumas šiame kontekste reiškia naudingumo išlaikymą nepaisant kintančių sąlygų, o ne tik atlaikymą atakas.
Ar startuoliai turėtų teikti pirmenybę tikslumui ar atsparumui?
Ankstyvosios stadijos produktai dažnai siekia tikslumo, kad įrodytų gyvybingumą ir pritrauktų finansavimą. Tačiau atsparumo ignoravimas sukuria skausmingą techninę skolą. Išmanios komandos nuo pat pradžių kuria pagrindinį atsparumą – tinkamą patvirtinimą, stebėseną ir paprastus gynybos metodus, o tada didina investicijas, kai produktai plečiasi. Tinkama pusiausvyra vystosi kartu su produkto branda ir rizikos poveikiu.
Kokį vaidmenį modelio atsparumui atlieka žmogaus priežiūra?
Žmonių valdomos sistemos gali aptikti atsparumo gedimus, kurių automatizuotos sistemos nepastebi. Kai modeliai išreiškia neapibrėžtumą arba susiduria su išoriniais įvesties duomenimis, nukreipimas žmogaus peržiūrai suteikia saugumo tinklą. Šis hibridinis metodas yra įprastas didelės rizikos srityse ir yra pragmatiškas pripažinimas, kad grynai automatizuotas atsparumas turi ribas.
Ar yra norminių reikalavimų modelio atsparumui?
Vis dažniau taip. ES Dirbtinio intelekto įstatymas reikalauja, kad didelės rizikos dirbtinio intelekto sistemos atitiktų patikimumo ir tikslumo standartus. FDA prašo medicinos prietaisų gamintojų įrodyti veikimą įvairiomis sąlygomis. Finansų reguliuotojai atlieka algoritminės prekybos sistemų testavimą nepalankiausiomis sąlygomis. Tikimasi, kad reguliuojamose programose atsparumo dokumentavimas taps toks pat standartinis, kaip ir tikslumo ataskaitų teikimas.
Nuosprendis
Dirbdami stabilioje, mažai rizikingoje aplinkoje, kur duomenų pasiskirstymas išlieka nuoseklus, o klaidos – pigios, rinkitės nuspėjamąjį tikslumą. Diegdami dirbtinį intelektą dinamiškuose, priešiškuose ar saugai svarbiuose kontekstuose, kur gedimo kaina gerokai viršija ribinio tikslumo padidėjimo naudą, pirmenybę teikite modelio atsparumui. Daugumai gamybinių sistemų galiausiai reikia abiejų, kruopščiai subalansuotų.