Arvutinägemise treenimine vs loomuliku pildi tajumine
See võrdlus vastandab seda, kuidas tehisnärvivõrke treenitakse visuaalsete andmete tõlgendamiseks, sellega, kuidas inimese bioloogiline visuaalne süsteem loodusmaailma tajub. Kui arvutinägemine tugineb matemaatiliste maatriksite eraldamiseks miljonitele staatilistele, pikslitasemel annoteeritud sisenditele, siis inimese loomulik taju kasutab dünaamilisi ja pidevaid sensoorseid vooge, mis on kontekstualiseeritud evolutsioonilise bioloogia ja vahetu kognitiivse tagasiside ahela struktuuride poolt.
Äärmiselt madal; nõuab suuri märgistatud andmekogumeid
Äärmiselt kõrge; võimeline ühekordseks õppimiseks
Töötlemismehhanism
Kihiliste maatriksite korrutused ja konvolutsioonid
Hierarhiline närviimpulss visuaalses ajukoores
Kontekstuaalne teadlikkus
Piiratud rangelt treeningandmete mustritega
Loogikal ja mälul põhinev terviklik maailmamudel
Mürakindlus
Habras; kerge pikslimüra tekitab kergesti segadust
Väga vastupidav; näeb kergesti läbi tugevate moonutuste
Sensoorne integratsioon
Tavaliselt isoleeritud, välja arvatud juhul, kui see on seotud multimodaalsete raamistikega
Oma olemuselt ühtne puudutuse, heli ja tasakaaluga
Üksikasjalik võrdlus
Andmete tarbimine ja õppimise efektiivsus
Kunstliku nägemise mudelid on kurikuulsalt infojanulised, olles sunnitud vaatama tuhandeid laitmatuid näiteid lihtsast objektist, näiteks jalgrattast, et seda usaldusväärselt tuvastada. Inimlastel on seevastu uskumatu võime õppida vaid mõne korraga, omandades sageli kontseptsiooni pärast seda, kui nad on seda ühe korra ebamugava nurga alt näinud. See ebavõrdsus eksisteerib seetõttu, et loomulik taju ei alga nullist; see tugineb miljonite aastate pikkusele evolutsioonilisele programmeerimisele, mis on optimeeritud füüsiliseks ellujäämiseks.
Arhitektuuri ja mehaanika töötlemine
Arvutinägemise mudel näeb pilti külma, lameda numbritabelina, mis esindavad punaseid, rohelisi ja siniseid väärtusi, töödeldes neid jäikade matemaatiliste filtrite abil. Bioloogiline nägemine käsitleb nägemist kui aktiivset, uurivat dialoogi silmade ja aju vahel. Meie silmad liiguvad pidevalt ruumis ringi, kasutades mikroliigutusi, mida nimetatakse sakaadideks, kogudes aktiivselt huvipakkuvate punktide kohta kõrglahutusega detaile, samal ajal kui aju konstrueerib sujuvalt ümbritsevat keskkonda mälust.
Müra ja vastaste haavatavuste käsitlemine
Neuraalvõrgud on märkimisväärselt haprad, kui nad seisavad silmitsi tahtlike või juhuslike muutustega oma nägemisväljas. Vaid mõne konkreetse piksli muutmisega saavad teadlased petta tipptasemel mudelit, mis ajab stopp-märgi segi kiirusepiirangu indikaatoriga. Inimese taju on nende mikroskoopiliste lõksude suhtes peaaegu immuunne, sest meie ajud ei vaata ainult tooreid tekstuure; me analüüsime semantilist konteksti, loogilist usutavust ja füüsikalisi keskkonnapiiranguid samaaegselt.
Kontekstuaalne integratsioon ja maailmamudelid
Kui arvutinägemisprogramm objekti klassifitseerib, hindab see selles raamistikus isoleeritud statistilisi korrelatsioone, teadmata, kuidas füüsiline maailm toimib. Kui diivanit redigeeritakse nii, et see näiks laes õhus hõljuvat, siis algoritm seda tõenäoliselt ei tuvasta. Loomulik taju töötab võimsa sisseehitatud füüsikamootori abil. Inimesed mõistavad gravitatsiooni, sügavust ja objektide püsivust, mis võimaldab meil koheselt ja kõhklemata tuvastada valesti paigutatud või osaliselt varjatud objekte.
Plussid ja miinused
Arvutinägemise koolitus
Eelised
+Villide töötlemiskiirused
+Veatu matemaatiline täpsus
+Immuunne füüsilise väsimuse suhtes
+Lihtne suures mahus kopeerida
Kinnitatud
−Nõuab suuri andmekogumeid
−Äärmiselt habras müra suhtes
−Puudub füüsiline terve mõistus
−Suur energiavajadus arvutuste jaoks
Loomulik pilditaju
Eelised
+Uskumatu andmetõhusus
+Veatu kontekstuaalne loogika
+Vastupidav pildi moonutustele
+Natiivne multisensoorne fusioon
Kinnitatud
−Kalduvus kognitiivsetele illusioonidele
−Ulatuslike tekstiruudustike aeglane töötlemine
−Füüsilise kurnatuse all
−Digitaalselt paljundada ei saa
Tavalised eksiarvamused
Müüt
Konvolutsioonilised närvivõrgud töötlevad pilte täpselt samamoodi nagu inimese aju.
Tõelisus
Kuigi konvolutsioonivõrgustikud on osaliselt inspireeritud varajasest visuaalsest ajukoorest, toimivad nad väga erinevalt. Neil puuduvad bioloogilisele tajule iseloomulikud massiivsed tagasisideühendused, korduvad ahelad ja multisensoorne maandus, mistõttu on nende töötlemisstiil palju lineaarsem ja hapram.
Müüt
Inimese silm jäädvustab laitmatuid ja kõrge eraldusvõimega videokaadreid nagu tipptasemel digikaamera.
Tõelisus
Meie silmad jäädvustavad kõrgresolutsiooniga detaile tegelikult vaid pisikeses keskosas, mida nimetatakse foveaks ja mis on käeulatuses umbes pöidlaküüne suurune. Ülejäänud osa meie laiast nägemisväljast on udune ja madala kvaliteediga; meie ajud täidavad neid lünki aktiivselt mälu ja ootuste abil, et luua terava pildi illusioon.
Müüt
Tehisintellekti mudel, mis saavutab andmestiku puhul 99% täpsuse, tajub objekti sama selgelt kui inimene.
Tõelisus
Ülitäpsed numbrid võivad olla eksitavad, sest mudelid kasutavad objekti tegeliku kuju mõistmise asemel sageli pealiskaudseid otseteid, näiteks taustatekstuuride või valgustuse analüüsimist. Kui tausta muuta, siis mudeli näiline arusaam sageli laguneb.
Müüt
Bioloogiline nägemine on puhtalt sisendprotsess, kus valgus liigub ühes suunas silmast ajju.
Tõelisus
Loomulik taju on sügavalt interaktiivne, kusjuures oluliselt rohkem närviteede ühendusi liigub aju kognitiivsetest keskustest allapoole visuaalsete releejaamade poole kui silmadest ülespoole. Meie mõtted, ootused ja mälestused dikteerivad aktiivselt seda, mida me füüsiliselt näeme.
Sageli küsitud küsimused
Mis on arvutinägemises vastaspoolte rünnak ja miks see lollitab tehisintellekti, aga mitte inimesi?
Vastase rünnak hõlmab pildi pikslite mikroskoopilisi kohandusi, mis on inimesele täiesti nähtamatud, kuid häirivad katastroofiliselt tehisintellekti mudeli matemaatilisi arvutusi. Need rünnakud kasutavad ära asjaolu, et närvivõrgud vaatavad tooreid pikslimustreid, selle asemel et mõista, mis objekt tegelikult on. Inimesi see ei mõjuta, kuna meie nägemine tugineb terviklikele kujunditele, loogilisele kontekstile ja struktuurilisele semantikale, mitte habrastele statistilistele piksli massiividele.
Kuidas toimib ühekordse õppimisega inimestel võrreldes tehisintellekti mudelitega?
Inimesed kasutavad ühekordset õppimist, ühendades ühe uue visuaalse kogemuse tohutu ja juba olemasoleva sisemise maailmateadmiste, füüsikareeglite ja keeleliste mõistete raamatukoguga. Kui tehisintellekti mudel kohtub uue objektiga, puudub tal tavaliselt see alusraamistik, mis tähendab, et see peab nullist kohandama miljoneid tühje matemaatilisi parameetreid. See nullist alguspunkt nõuab stabiilsete mustrite leidmiseks tohutul hulgal korduvaid andmeid.
Milline roll on sakaadidel selles, kuidas inimesed looduskeskkonda tajuvad?
Sakaadid on kiired, tahtmatud liigutused, mida meie silmad teevad mitu korda sekundis, et suunata oma kõrglahutusega fovea stseeni erinevatele osadele. Selle asemel, et töödelda kogu keskkonda ühtlaselt nagu arvutikaamera, kasutab aju neid kiireid pilke kriitiliste tsoonide, näiteks nägude või liikuvate objektide, proovide võtmiseks. Seejärel kasutab see oma sisemist maailmamudelit, et need fragmendid sujuvaks ja terviklikuks vaimseks pildiks kokku panna.
Miks arvutinägemissüsteemid näevad muutuvate valgustingimustega nii palju vaeva?
Kui objekti valgustus muutub, muutuvad digitaalse pildi pikslite absoluutarvulised väärtused dramaatiliselt. Kuna traditsioonilised arvutinägemise mudelid vaatavad neid numbreid otse, võib neil olla raske aru saada, et tegemist on sama objektiga erinevas valguses. Inimestel on kognitiivne funktsioon nimega värvi ja heleduse püsivus, mis filtreerib automaatselt välja valgustuse muutused, et hoida objekti omadused stabiilsena.
Mis vahe on tehisintellekti semantilisel segmenteerimisel ja inimeste figuuri-tausta organiseerimisel?
Semantiline segmenteerimine on arvutiülesanne, mille puhul algoritm märgistab iga pildi piksli statistiliste piiride põhjal kindlasse klassi kuuluvaks, näiteks auto, tee või taevas. Joonise ja tausta organisatsioon on bioloogiline protsess, mille käigus aju eraldab esiplaanil olevad objektid instinktiivselt taustast. Seda mehhanismi toetavad evolutsioonilised ellujäämisomadused, sügavusmärgid ja servade omandiõiguse loogika.
Kas multimodaalne treening aitab arvutinägemisel läheneda inimese nägemise vastupidavusele?
Jah, visuaalsete andmete sidumine teksti, heli või ruumilise sügavuse andmetega aitab seda lõhet oluliselt ületada. Õppides ühendama objekti pildi selle kirjaliku kirjelduse, füüsikaliste omaduste või heliga, loob tehisintellekt abstraktsema ja ümarama esituse. See mitmekihiline raamistik muudab mudeli palju vähem sõltuvaks pealiskaudsetest pikslikombinatsioonidest ja palju vastupidavamaks reaalse maailma mürale.
Kuidas erineb optilise illusiooni haavatavus arvutimudelite ja inimeste vahel?
Inimese optilised illusioonid tekivad seetõttu, et meie ajud kasutavad keerukaid otseteede reegleid sügavuse, varju ja liikumise osas, mis aeg-ajalt teatud mustrite tõttu rikutud saavad. Arvutinägemise mudelid ei lange nendesse inimlike lõksudesse, kuid kannatavad täiesti ainulaadsete matemaatiliste illusioonide all. Näiteks võib tehisintellekt näha seinal kummalist tekstuuri ja väita enesekindlalt, et see on elusloom, kuna pikslite sagedused joonduvad ideaalselt.
Mis on kehastus ja miks seda peetakse loomuliku arvutinägemise tuleviku jaoks ülioluliseks?
Kehastumine on kontseptsioon, kus tehisintellekt paigutatakse füüsilisse kehasse, näiteks robotisse, võimaldades sellel otse oma ümbrusega suhelda. See füüsiline kohalolek on ülioluline, sest see võimaldab tehisintellektil õppida tegevuse kaudu, näiteks objekti ümber liikudes, et seda mitme nurga alt näha, või selle üles tõstes, et selle vormi mõista. See interaktiivne tagasisidepeegel loob palju sügavama, inimliku arusaama ruumist, kui staatiliste veebiandmekogumite vahtimine iial suudaks.
Otsus
Kasutage arvutinägemissüsteeme, kui teil on vaja töödelda tohutul hulgal staatilisi digitaalseid kujutisi ülikiiresti ja veatult pikslitasemel. Järgmise põlvkonna tehisintellekti arhitektuuride loomisel, mis peavad tõhusalt õppima minimaalsetest andmetest ja navigeerima ettearvamatutes, kaootilistes füüsilistes keskkondades, uurige aga loomulikku pilditaju.