Prognozējošā precizitāte mēra, cik labi modeļa prognozes atbilst reālās pasaules rezultātiem, savukārt modeļa noturība mēra sistēmas spēju saglabāt veiktspēju, saskaroties ar pretinieku uzbrukumiem, datu novirzi vai vides izmaiņām. Abi rādītāji ietekmē to, kā mēs novērtējam mākslīgā intelekta uzticamību, tomēr tie bieži vien ietekmē modeļa izstrādi dažādos virzienos.
Iezīmes
Akadēmiskajos līderu sarakstos dominē prognozēšanas precizitāte, tomēr ražošanas ieviešanā arvien vairāk uzvar elastīgie modeļi.
Pretrunīgi piemēri var reducēt augstas precizitātes modeli līdz nejaušas minēšanas veiktspējai ar izmaiņām, kas cilvēkiem nav redzamas.
Koncepcijas nobīde laika gaitā nemanāmi samazina precizitāti, padarot noturības uzraudzību būtisku ilgstoši darbojošām sistēmām.
Regulējošie regulējumi visā pasaulē pāriet no tikai precizitātes prasībām uz precizitātes un noturības prasībām attiecībā uz augsta riska mākslīgo intelektu.
Kas ir Prognozējošā precizitāte?
Pakāpe, kādā mašīnmācīšanās modeļa prognozes atbilst faktiski novērotajiem rezultātiem.
Prognozes precizitāti parasti aprēķina kā pareizo prognožu attiecību pret modeļa veikto kopējo prognožu skaitu.
Klasifikācijas uzdevumos precizitāte var būt maldinoša, ja klases ir nelīdzsvarotas, kas noveda pie tādu rādītāju izstrādes kā F1-rādītājs un AUC-ROC.
Dziļās mācīšanās modeļi bieži vien sasniedz pārcilvēcisku paredzēšanas precizitāti tādos šauros uzdevumos kā attēlu atpazīšana un medicīniskā diagnostika.
Augsta paredzamā precizitāte apmācības datos negarantē labu vispārināšanu neredzētiem datiem, un šī problēma ir pazīstama kā pāraprēķināšana.
Tādi etaloni kā ImageNet un GLUE ir veicinājuši strauju paredzošās precizitātes uzlabošanos datorredzē un dabiskās valodas apstrādē.
Kas ir Modeļa noturība?
Modeļa spēja uzturēt pieņemamu veiktspēju stresa, traucējumu vai mainīgu apstākļu apstākļos.
Modeļa noturība ietver noturību pret naidīgiem piemēriem — smalkām ievades perturbācijām, kas paredzētas nepareizas klasifikācijas izraisīšanai.
Elastīgie modeļi saglabā veiktspēju koncepcijas novirzes laikā, kad mērķa mainīgo statistiskās īpašības laika gaitā mainās.
Modeļa noturības uzlabošanai parasti tiek izmantotas tādas metodes kā sacīkstes apmācība, izstāšanās un ansambļa metodes.
Noturības testēšana bieži ietver stresa testēšanu ar trokšņainiem datiem, sadalījuma nobīdēm un robežgadījumiem, kas atšķiras no apmācības apstākļiem.
Drošībai kritiski svarīgās lietojumprogrammās, piemēram, autonomajā braukšanā un veselības aprūpē, modeļa noturībai var būt lielāka nozīme nekā tikai nelieliem ieguvumiem prognozēšanas precizitātē.
Salīdzinājuma tabula
Funkcija
Prognozējošā precizitāte
Modeļa noturība
Primārais fokuss
Prognožu pareizība attiecībā uz paredzamajiem datiem
Stabilitāte negaidītos vai nelabvēlīgos apstākļos
Galvenie draudi
Pārmērīga pielāgošana, izlases neobjektivitāte, nepietiekamas funkcijas
Naidīgi uzbrukumi, datu novirze, sistēmas kļūmes
Mērīšanas pieeja
Savstarpēja validācija, izslēgšanas testēšana, etalonrādītāji
Stresa testi, sarkanās komandas veidošana, stabilitātes auditi
Optimizācijas kompromiss
Var upurēt noturību, lai nodrošinātu maksimālu veiktspēju ar tīriem datiem
Var pieņemt zemāku bāzes līnijas precizitāti plašākas ticamības labad
Tipisks pielietojums
Ieteikumu dzinēji, prognozēšana, rangu sistēmas
Autonomās sistēmas, krāpšanas atklāšana, medicīniskā mākslīgā intelekta
Nozares standarti
Precizitāte, precizitāte, atcerēšanās, F1 rādītājs, MAE, RMSE
Noturības sertifikāti, konkurējoši testu komplekti, noturības ietvari
Pētījuma uzsvars
Jaunas arhitektūras, lielāki datu kopumi, hiperparametru regulēšana
Aizsardzības apmācība, nenoteiktības kvantifikācija, ārpus izplatīšanas esošu objektu noteikšana
Detalizēts salīdzinājums
Galvenais mērķis un definīcija
Prognozējošā precizitāte atbild uz vienkāršu jautājumu: cik bieži šis modelis ir pareizs? Tā kalpo kā noklusējuma veiksmes rādītājs lielākajā daļā mašīnmācīšanās procesu, sākot no klientu aizplūšanas prognozēšanas līdz slimību diagnosticēšanai. Tomēr modeļa noturība uzdod sarežģītāku jautājumu: vai modelis paliek pareizs, kad kaut kas noiet greizi? Tas ietver visu, sākot no kameras apšļakstīšanas ar dubļiem līdz ļaunprātīgam spēlētājam, kurš ģenerē maldinošus ievades datus.
Reālās pasaules veiktspējas atšķirības
Modelis, kas laboratorijas apstākļos lepojas ar 99 % precizitāti, ražošanas procesā var sabrukt. Pētījumi liecina, ka attēlu klasifikatorus var apmānīt nemanāmas pikseļu izmaiņas, un NLP modeļi sabojājas, saskaroties ar drukas kļūdām vai dialektu variācijām. Uz noturību vērsta inženierija paredz šīs kļūmes, nevis cer, ka tās nenotiks. Atšķirība starp etalona precizitāti un reālās pasaules uzticamību joprojām ir viena no visdārgākajām mākslīgā intelekta problēmām.
Kompromisi modeļu izstrādē
Centieni panākt maksimālu prognozēšanas precizitāti bieži noved pie sarežģītiem, pārāk parametrizētiem modeļiem, kas iegaumē apmācības modeļus. Šie modeļi mēdz būt trausli — nelielas ievades izmaiņas dod ļoti atšķirīgus rezultātus. Vienkāršāki modeļi vai tie, kas apmācīti ar regularizāciju un konkurējošiem piemēriem, var iegūt nedaudz zemākus rezultātus tīros etalonos, bet izrādīties daudz uzticamāki, kad tie tiek ieviesti. Komandām ir jāizlemj, kurš rādītājs atbilst viņu riska tolerancei.
Novērtēšanas metodoloģijas
Precizitāte tiek novērtēta, izmantojot labi izveidotus protokolus: sadaliet datus, apmāciet, pārbaudiet, varbūt veiciet savstarpēju validāciju. Noturības novērtēšana ir haotiskāka un radošāka. Inženieri var ievadīt Gausa troksni, simulēt sensoru degradāciju vai nolīgt sarkanās komandas, lai uzbruktu modelim. Tādas organizācijas kā NIST ir sākušas izstrādāt standartizētus noturības testus, taču šajā jomā trūkst universālu kritēriju, kas ir precizitātei.
Uzņēmējdarbības un drošības ietekme
Filmu ieteikumu dzinējam neliela precizitātes samazināšanās nav svarīga — lietotāji var redzēt nedaudz mazāk atbilstošu ieteikumu. Autonomos transportlīdzekļos vai vēža skrīningā noturības kļūmes var būt letālas. Regulējošās iestādes arvien vairāk pieprasa modeļa noturības pierādījumus, ne tikai precizitātes ziņojumus. Gan ES Mākslīgā intelekta likums, gan Pārtikas un zāļu pārvaldes (FDA) vadlīnijas par mākslīgā intelekta medicīnas ierīcēm uzsver noturību un uzraudzību pēc ieviešanas.
Priekšrocības un trūkumi
Prognozējošā precizitāte
Iepriekšējumi
+Viegli izmērīt un sazināties
+Ieinteresētās personas to plaši saprot
+Virza skaidrus optimizācijas mērķus
+Nodrošina tiešu modeļu salīdzināšanu
Ievietots
−Ignorē reālās pasaules izplatīšanas izmaiņas
−Var stimulēt pārmērīgu pielāgošanu
−Maldinoša informācija ar nesabalansētiem datiem
−Nekas nesaka par atteices režīmiem
Modeļa noturība
Iepriekšējumi
+Tiek galā ar negaidītiem reālās pasaules apstākļiem
+Samazina katastrofālu kļūmju risku
+Veido lietotāju un regulatoru uzticību
+Pagarina modeļa efektīvo kalpošanas laiku
Ievietots
−Grūtāk precīzi kvantificēt
−Var samazināt maksimālo precizitāti
−Nepieciešama sarežģītāka apmācība
−Trūkst universālu etalonu
Biežas maldības
Mīts
Augstāka prognozēšanas precizitāte praksē vienmēr nozīmē labāku modeli.
Realitāte
Modelis ar nedaudz zemāku precizitāti, bet spēcīgāku noturību bieži vien sniedz lielāku biznesa vērtību. Statisko testu kopās izmērītā precizitāte nespēj aptvert modeļu uzvedību, kad ievades dati atšķiras no apmācības sadalījumiem, kas ir lielākās daļas reālās pasaules kļūmju cēlonis.
Mīts
Modeļa noturība ir svarīga tikai drošībai kritiski svarīgām lietojumprogrammām.
Realitāte
Katrs ieviestais modelis saskaras ar mainīgiem datiem. Mazumtirdzniecības pieprasījuma prognozēšanas modelis, kas 2019. gadā darbojās nevainojami, visticamāk, neizdevās pandēmijas laika iepirkšanās maiņu laikā. Noturība nosaka, vai modelis pielāgojas vai kļūst par tehnisko parādu.
Mīts
Jūs varat droši optimizēt gan precizitāti, gan noturību vienlaikus, nepieļaujot kompromisus.
Realitāte
Pētījumi pastāvīgi liecina par pretrunu starp šiem mērķiem. Konkurences apmācība, kas ir galvenā noturības metode, parasti samazina tīro datu precizitāti par dažiem procentpunktiem. Optimālais līdzsvars ir atkarīgs no lietojumprogrammas konteksta.
Mīts
Noturība ir tikai aizsardzība pret hakeriem.
Realitāte
Naidīgi uzbrukumi ir tikai viena no daudzām noturības problēmām. Dabiski traucējumi, piemēram, sensoru degradācija, laikapstākļu ietekme uz kamerām, cilvēciskas kļūdas datu ievadē un pakāpeniska koncepcijas novirze, visu testa modeļa noturību ietekmē. Apdraudējumu virsma ir plašāka nekā tikai kiberdrošība.
Mīts
Ja modelis iztur validāciju ar augstu precizitāti, tas būs pietiekami noturīgs.
Realitāte
Validācijas kopas parasti precīzi atspoguļo apmācības datus. Noturības kļūmes rodas tieši tur, kur testa apstākļi atšķiras no šīs ērtās pārklāšanās. Ir nepieciešama specializēta noturības testēšana, kas pārsniedz standarta validāciju.
Bieži uzdotie jautājumi
Kas ir paredzošā precizitāte mašīnmācībā?
Prognozes precizitāte attiecas uz to, cik bieži modeļa prognozes atbilst faktiskajiem rezultātiem. Klasifikācijā tā ir vienkārši pareizas prognozes, dalītas ar kopējo prognožu skaitu. Regresijā līdzīgiem mērķiem kalpo saistīti rādītāji, piemēram, vidējā absolūtā kļūda vai R kvadrāts. Lai gan precizitāte ir intuitīva, tā pati par sevi neatšķir kļūdu veidus vai neizskaidro klases nelīdzsvarotību.
Kā modeļa noturība atšķiras no modeļa robustuma?
Šie termini ievērojami pārklājas. Noturība parasti attiecas uz veiktspēju ievades traucējumu gadījumā, savukārt noturība ietver plašāku spēju atgūties no nelabvēlīgiem apstākļiem vai pielāgoties tiem, tostarp sistēmas kļūmēm, datu plūsmas problēmām un koncepcijas novirzēm. Daži pētnieki tos lieto savstarpēji aizvietojami, taču noturībai ir vairāk sistēmiska, visaptveroša konotācija.
Vai modelim var būt augsta precizitāte, bet zema noturība?
Pilnīgi piekrītu, un tas ir pārsteidzoši bieži. Dziļie neironu tīkli bieži sasniedz visaugstāko precizitāti, tomēr katastrofāli neizdodas ar nedaudz modificētiem ievades datiem. Slavens piemērs: attēlu klasifikatori, kas pareizi marķē pandu, bet pēc nemanāma trokšņa pievienošanas to nepareizi klasificē kā gibonu. Precizitātes un noturības atšķirība ir viens no galvenajiem pētījumu virzieniem.
Kādas metodes uzlabo modeļa noturību?
Pretrunīgas apmācības laikā modeļi tiek pakļauti traucētiem piemēriem. Ansambļa metodes apvieno vairākus modeļus, lai samazinātu viena punkta kļūmes. Regularizācijas metodes, piemēram, izkrišana, novērš pārmērīgu pielāgošanu. Nenoteiktības kvantifikācija palīdz modeļiem atpazīt, kad tiem nevajadzētu uzticēties savām prognozēm. Domēnu nejaušināšana un datu palielināšana paplašina apmācības sadalījumu.
Kāpēc sacensību apmācība dažreiz samazina precizitāti?
Sacensību apmācība optimizē sliktākā, nevis vidējā gadījuma veiktspēju. Modelis iemācās aizsargāties pret uzbrukumiem, nevis perfekti pielāgot tīrus datus. Šī modeļa kapacitātes pārdale parasti samazina dažus punktus no nevainojamiem etalonrādītājiem, vienlaikus ievērojami uzlabojot uzvedību stresa apstākļos. Tas, vai šis kompromiss ir vērts, ir atkarīgs no izvietošanas konteksta.
Kā jūs mērāt modeļa noturību?
Atšķirībā no precizitātes, noturībai trūkst viena skaitļa. Izplatītas pieejas ietver pretinieku uzbrukumu veiksmes rādītājus, veiktspējas degradācijas līknes pieaugoša trokšņa apstākļos, ārpus izplatīšanas esošu objektu noteikšanas rādītājus un stresa testus, kas simulē aparatūras kļūmes vai datu cauruļvada bojājumus. Jaunie standarti no tādām organizācijām kā NIST mērķis ir nodrošināt lielāku konsekvenci noturības novērtēšanā.
Vai paredzēšanas precizitāte joprojām ir svarīga, ja prioritāte tiek piešķirta noturībai?
Jā — noturība bez pamata kompetences ir bezjēdzīga. Modelis, kas visos apstākļos pārliecinoši sniedz nepareizas atbildes, nav noturīgs; tas vienkārši pastāvīgi ir slikts. Precizitāte izveido pareizības pamatu, ko noturība pēc tam aizsargā. Mērķis ir precīzs un noturīgs, nevis noturīgs, nevis precīzs.
Kurām nozarēm visvairāk rūp modeļu noturība?
Autonomā transporta, veselības aprūpes, finanšu un aizsardzības nozares ir vadošās nozares. Jebkurā jomā, kurā modeļu kļūmes rada kaitējumu, regulatīvo pārbaudi vai ievērojamus finansiālus zaudējumus, ir nepieciešama noturība. Pat mazāk nozīmīgākas nozares arvien vairāk piešķir prioritāti noturībai, jo mākslīgais intelekts tiek integrēts ar klientiem saistītos produktos, kur zīmola reputācijai ir nozīme.
Kā koncepcijas novirze ietekmē diskusiju par precizitāti un noturību?
Koncepcijas novirze rodas, kad laika gaitā mainās attiecības starp ievades un izvades datiem — iedomājieties surogātpasta filtrus, kas saskaras ar jaunām krāpniecības taktikām. Modelis ar augstu sākotnējo precizitāti degradējas bez noturības mehānismiem, piemēram, nepārtrauktas uzraudzības un pārapmācības. Noturība šajā kontekstā nozīmē lietderības saglabāšanu, neskatoties uz mainīgiem apstākļiem, ne tikai uzbrukumu izturēšanu.
Vai jaunuzņēmumiem vajadzētu dot priekšroku precizitātei vai noturībai?
Agrīnās stadijas produkti bieži vien dzenas pēc precizitātes, lai pierādītu dzīvotspēju un piesaistītu finansējumu. Tomēr noturības ignorēšana rada sāpīgu tehnisko parādu. Gudras komandas jau no paša sākuma iestrādā pamata noturību — atbilstošu validāciju, uzraudzību un vienkāršas aizsardzības metodes —, un pēc tam, paplašināšanās gaitā, padziļina investīcijas. Pareizais līdzsvars attīstās līdz ar produkta briedumu un riska pakļautību.
Kāda loma modeļa noturībā ir cilvēka uzraudzībai?
Cilvēka vadītas sistēmas var pamanīt noturības kļūmes, kuras automatizētas sistēmas nepamana. Kad modeļi pauž nenoteiktību vai sastopas ar ārpus izplatīšanas esošiem ievades datiem, novirzīšana cilvēka pārskatīšanai nodrošina drošības tīklu. Šī hibrīdpieeja ir izplatīta jomās ar augstām likmēm un ir pragmatiska atzīšana, ka pilnībā automatizētai noturībai ir ierobežojumi.
Vai pastāv normatīvās prasības modeļa noturībai?
Arvien biežāk jā. ES Mākslīgā intelekta likums pieprasa, lai augsta riska mākslīgā intelekta sistēmas atbilstu robustuma un precizitātes standartiem. Pārtikas un zāļu pārvalde (FDA) lūdz medicīnas ierīču ražotājiem demonstrēt veiktspēju dažādos apstākļos. Finanšu regulatori veic algoritmiskās tirdzniecības sistēmu stresa testus. Sagaidāms, ka noturības dokumentācija kļūs par tikpat standartu kā precizitātes ziņošana regulētām lietojumprogrammām.
Spriedums
Izvēlieties paredzošo precizitāti kā savu vadošo zvaigzni, strādājot stabilā, zemu risku vidē, kur datu sadalījums saglabājas nemainīgs un kļūdas ir lētas. Piešķiriet prioritāti modeļa noturībai, ieviešot mākslīgo intelektu dinamiskos, naidīgos vai drošībai kritiskos kontekstos, kur kļūmes izmaksas ievērojami pārsniedz marginālā precizitātes pieauguma sniegtos ieguvumus. Lielākajai daļai ražošanas sistēmu galu galā ir nepieciešami abi, pārdomāti līdzsvaroti.