Kompiuterinio regėjimo mokymas ir natūralaus vaizdo suvokimas
Šiame palyginime lyginami dirbtinių neuroninių tinklų mokymo interpretuoti vaizdinius duomenis ir žmogaus biologinės regos sistemos suvokimo apie gamtinį pasaulį principai. Nors kompiuterinė rega remiasi milijonais statinių, pikselių lygmenyje anotuotų įvesties duomenų, kad išgautų matematines matricas, natūralus žmogaus suvokimas naudoja dinaminius, nuolatinius jutimo srautus, kontekstualizuotas evoliucinės biologijos ir tiesioginio kognityvinio grįžtamojo ryšio kilpų struktūrų.
Akcentai
Kompiuterinės regos algoritmai apdoroja vaizdinius vaizdus kaip statinius matematinius skaitmeninių spalvų reikšmių tinklelius.
Žmogaus suvokimas pasitelkia turtingą evoliucinį pagrindą, kad atpažintų naujus objektus iš pavienių ekspozicijų.
Nedideli skaitmeniniai pakeitimai gali lengvai apakinti dirbtinio intelekto modelius, o žmogaus regėjimas ignoruoja paviršinį aplinkos triukšmą.
Biologinis regėjimas veikia kaip aktyvi sensorinė kilpa, integruota su fizine logika ir multimodalinėmis atminties sistemomis.
Kas yra Kompiuterinio matymo mokymai?
Dirbtinių neuroninių tinklų optimizavimo procesas naudojant didžiules pikselių reikšmių matricas ir diskrečias matematines nuostolių funkcijas.
Norint pasiekti aukštą operacinio klasifikavimo tikslumą, reikia tūkstančių ar milijonų aiškiai paženklintų skaitmeninių vaizdų.
Vizualinius įvesties duomenis apdoroja kaip statines, izoliuotas skaitmeninių RGB spalvų reikšmių kanalų tinklelio matricas.
Trūksta būdingo kontekstinio sveiko proto, todėl modeliai yra pažeidžiami priešiškų atakų dėl nedidelių pikselių trikdžių.
Matematiniams svoriams dirbtinių neuronų sluoksniuose koreguoti naudojamos optimizavimo kilpos, tokios kaip atgalinis dauginimas.
Labai sunkiai sekasi su atvejais, kai įranga nėra platinama ir jie nukrypsta nuo konkretaus mokymo rinkinio apšvietimo ar kampų.
Kas yra Natūralus vaizdo suvokimas?
Biologinis procesas, kurio metu žmogaus smegenys akimirksniu interpretuoja nuolatinius, dinamiškus šviesos modelius į prasmingas aplinkas.
Veikia per nepertraukiamą, 3D binokulinį vaizdo srautą, o ne analizuoja izoliuotus, plokščius 2D kadrus.
Naudoja gilią, iš anksto sukurtą evoliucinę architektūrą, kuri lengvai tvarko šviesą, šešėlį ir objektų pastovumą.
Išmoksta atpažinti visiškai naujas objektų kategorijas vos iš vieno ar dviejų neformalių realaus pasaulio susidūrimų.
Akimirksniu integruoja vizualinius signalus su kitais jutiminiais įėjimais, tokiais kaip garsas, pusiausvyra, fizinis prisilietimas ir erdvinė atmintis.
Naudoja dinaminius sakadinius akių judesius, kad aktyviai atrinktų konkrečias, dominančias aplinkos scenos sritis.
Labai žemas; reikalingi dideli žymėti duomenų rinkiniai
Ypač aukštas; geba mokytis vienu kartu
Apdorojimo mechanizmas
Sluoksniuotos matricos daugybos ir konvoliucijos
Hierarchinis neuroninis impulsas regos žievėje
Kontekstinis sąmoningumas
Griežtai apribota mokymo duomenų šablonais
Holistinis pasaulio modelis, pagrįstas logika ir atmintimi
Atsparumas triukšmui
Trapus; lengvai supainiojamas dėl nedidelio pikselių triukšmo
Labai atsparus; lengvai mato didelius iškraipymus
Sensorinė integracija
Paprastai izoliuotas, nebent derinamas su daugiarūšėmis sistemomis
Iš prigimties suvienyta su prisilietimu, garsu ir balansu
Išsamus palyginimas
Duomenų suvartojimas ir mokymosi efektyvumas
Dirbtinio matymo modeliai yra pagarsėję informacijos ištroškimu ir, norėdami patikimai atpažinti paprastą objektą, pavyzdžiui, dviratį, turi peržiūrėti tūkstančius nepriekaištingų pavyzdžių. Tuo tarpu žmonių vaikai pasižymi neįtikėtinu gebėjimu mokytis vos per kelis kartus, dažnai įvaldydami sąvoką pamatę ją vieną kartą iš vieno nepatogaus kampo. Šis skirtumas egzistuoja todėl, kad natūralus suvokimas neprasideda nuo nulio; jis remiasi milijonus metų trukusia evoliucine programine įranga, optimizuota fiziniam išlikimui.
Apdorojimo architektūra ir mechanika
Kompiuterinės regos modelis vaizdą mato kaip šaltą, plokščią skaičių, vaizduojančių raudonos, žalios ir mėlynos spalvų vertes, skaičiuoklę, apdorodama juos per griežtus matematinius filtrus. Biologinė rega regėjimą traktuoja kaip aktyvų, tiriamąjį dialogą tarp akių ir smegenų. Mūsų akys nuolat laksto po kambarį, naudodamos mikrojudesius, vadinamus sakadomis, aktyviai rinkdamos didelės raiškos detales apie dominančius taškus, o smegenys sklandžiai konstruoja supančią aplinką iš atminties.
Triukšmo ir priešiškų pažeidžiamumų valdymas
Neuroniniai tinklai yra nepaprastai trapūs, kai susiduriama su tyčiniais ar atsitiktiniais jų regėjimo lauko pakeitimais. Pakeitę vos kelis konkrečius pikselius, tyrėjai gali apgauti modernų modelį taip, kad jis supainiotų STOP ženklą su greičio apribojimo indikatoriumi. Žmogaus suvokimas yra beveik atsparus šiems mikroskopiniams spąstams, nes mūsų smegenys ne tik žiūri į neapdorotas tekstūras; mes vienu metu analizuojame semantinį kontekstą, loginį tikėtinumą ir fizinius aplinkos apribojimus.
Kontekstinė integracija ir pasaulio modeliai
Kai kompiuterinės regos programa klasifikuoja objektą, ji įvertina izoliuotas statistines koreliacijas tame kontekste, nežinodama, kaip veikia fizinis pasaulis. Jei sofa redaguojama taip, kad atrodytų kybanti ore ant lubų, algoritmas greičiausiai jos neatpažins. Natūralus suvokimas veikia su galingu, integruotu fizikos varikliu. Žmonės supranta gravitaciją, gylį ir objekto pastovumą, todėl galime akimirksniu atpažinti pamestas arba iš dalies uždengtas objektus be jokių dvejonių.
Privalumai ir trūkumai
Kompiuterinio matymo mokymai
Privalumai
+Pūslių apdorojimo greitis
+Nepriekaištingas matematinis tikslumas
+Atsparumas fiziniam nuovargiui
+Lengva atkartoti dideliu mastu
Pasirinkta
−Reikalingi dideli duomenų rinkiniai
−Ypač jautrus triukšmui
−Trūksta fizinio sveiko proto
−Dideli energijos poreikiai skaičiavimui
Natūralus vaizdo suvokimas
Privalumai
+Neįtikėtinas duomenų efektyvumas
+Nepriekaištinga kontekstinė logika
+Atsparus vaizdo iškraipymams
+Gimtoji daugiasensorinė sintezė
Pasirinkta
−Polinkis į kognityvines iliuzijas
−Lėtas didelių teksto tinklelių apdorojimas
−Dėl fizinio išsekimo
−Negalima kopijuoti skaitmeniniu būdu
Dažni klaidingi įsitikinimai
Mitas
Konvoliuciniai neuroniniai tinklai apdoroja vaizdus lygiai taip pat, kaip ir žmogaus smegenys.
Realybė
Nors konvoliuciniai tinklai buvo laisvai įkvėpti ankstyvosios regos žievės, jie veikia labai skirtingai. Jiems trūksta masyvių grįžtamųjų ryšių, pasikartojančių kilpų ir daugiasensorinio įžeminimo, kurie apibrėžia biologinį suvokimą, todėl jų apdorojimo stilius yra daug linijiškesnis ir trapesnis.
Mitas
Žmogaus akys fiksuoja nepriekaištingus, didelės raiškos vaizdo kadrus kaip aukščiausios klasės skaitmeninis fotoaparatas.
Realybė
Mūsų akys iš tikrųjų fiksuoja didelės raiškos detales tik mažytėje centrinėje zonoje, vadinamoje duobute (fovea), kuri yra maždaug nykščio dydžio ištiestos rankos atstumu. Likusi mūsų plataus regėjimo lauko dalis yra neryški ir prastos kokybės; mūsų smegenys aktyviai užpildo šias spragas, naudodamos atmintį ir lūkesčius, kad sukurtų ryškaus vaizdo iliuziją.
Mitas
Dirbtinio intelekto modelis, kuris duomenų rinkinyje pasiekia 99 % tikslumą, objektą suvokia taip pat aiškiai, kaip ir žmogus.
Realybė
Didelio tikslumo skaičiai gali būti klaidinantys, nes modeliai dažnai naudojasi paviršutiniškais trumpesniais būdais, tokiais kaip fono tekstūrų ar apšvietimo analizė, užuot supratę tikrąją objekto formą. Pakeitus foną, modelio tariamas supratimas dažnai suyra.
Mitas
Biologinis regėjimas yra grynai įvesties procesas, kai šviesa keliauja viena kryptimi iš akies į smegenis.
Realybė
Natūralus suvokimas yra labai interaktyvus, žymiai daugiau neuroninių takų jungčių keliauja žemyn iš smegenų kognityvinių centrų į regos perdavimo stotis nei aukštyn iš akių. Mūsų mintys, lūkesčiai ir prisiminimai aktyviai diktuoja tai, ką fiziškai matome.
Dažnai užduodami klausimai
Kas yra priešiška ataka kompiuterinio matymo srityje ir kodėl ji apgauna dirbtinį intelektą, bet ne žmones?
Priešiškos atakos metu atliekami mikroskopiniai vaizdo pikselių koregavimai, kurie yra visiškai nematomi žmogui stebėtojui, bet katastrofiškai sutrikdo dirbtinio intelekto modelio matematinius skaičiavimus. Šios atakos išnaudoja faktą, kad neuroniniai tinklai žiūri į neapdorotus pikselių modelius, o ne supranta, kas iš tikrųjų yra objektas. Žmonės neturi įtakos, nes mūsų regėjimas remiasi holistinėmis formomis, logine kontekstu ir struktūrine semantika, o ne trapiais statistiniais pikselių masyvais.
Kaip vienkartinis mokymasis veikia žmonėms, palyginti su dirbtinio intelekto modeliais?
Žmonės naudoja vienkartinį mokymąsi, susiedami vieną naują vizualinę patirtį su didele, jau egzistuojančia vidine pasaulinių žinių, fizikos taisyklių ir kalbinių sąvokų biblioteka. Kai dirbtinio intelekto modelis susiduria su nauju objektu, jam paprastai trūksta šios pagrindinės sistemos, o tai reiškia, kad jis turi nuo nulio koreguoti milijonus tuščių matematinių parametrų. Šiam tuščiam atspirties taškui reikia didžiulių kiekių pasikartojančių duomenų, kad būtų rasti stabilūs modeliai.
Kokį vaidmenį sakados vaidina tam, kaip žmonės suvokia natūralią aplinkos sceną?
Sakados – tai greiti, nevalingi judesiai, kuriuos mūsų akys atlieka kelis kartus per sekundę, kad nukreiptų didelės skiriamosios gebos geltonąją dėmę (fovea) į skirtingas scenos dalis. Užuot vienodai apdorojusi visą aplinką kaip kompiuterio kamera, smegenys naudoja šiuos greitus žvilgsnius, kad atrinktų svarbiausias zonas, pavyzdžiui, veidus ar judančius objektus. Tada jos naudoja savo vidinį pasaulio modelį, kad sujungtų šiuos fragmentus į sklandų, išsamų psichinį vaizdą.
Kodėl kompiuterinio matymo sistemoms taip sunku prisitaikyti prie kintančių apšvietimo sąlygų?
Kai keičiasi objekto apšvietimas, absoliučios skaitmeninio vaizdo pikselių vertės smarkiai pasikeičia. Kadangi tradiciniai kompiuterinio matymo modeliai tiesiogiai žiūri į šiuos skaičius, jiems gali būti sunku suprasti, kad tai tas pats objektas kitoje šviesoje. Žmonės turi kognityvinę funkciją, vadinamą spalvos ir šviesumo pastovumu, kuri automatiškai filtruoja apšvietimo pokyčius, kad objekto savybės išliktų stabilios.
Kuo skiriasi semantinė segmentacija dirbtiniame intelekte ir figūros ir fono organizavimas žmonių sistemoje?
Semantinis segmentavimas yra kompiuterinė užduotis, kai algoritmas, remdamasis statistinėmis ribomis, kiekvieną vaizdo pikselį priskiria tam tikrai klasei, pavyzdžiui, automobiliui, keliui ar dangui. Figūros ir fono organizavimas yra biologinis procesas, kurio metu smegenys instinktyviai atskiria priekinio plano objektus nuo fono. Šį mechanizmą palaiko evoliuciniai išlikimo bruožai, gylio požymiai ir kraštų nuosavybės logika.
Ar multimodalinis mokymas gali padėti kompiuteriniam regėjimui priartėti prie žmogaus regėjimo atsparumo?
Taip, vizualinių duomenų susiejimas su tekstu, garsu ar erdvinio gylio duomenimis padeda gerokai sumažinti atotrūkį. Išmokęs susieti objekto vaizdą su jo rašytiniu aprašymu, fizinėmis savybėmis ar garsu, dirbtinis intelektas sukuria abstraktesnį, apvalesnį vaizdą. Ši daugiasluoksnė sistema daro modelį daug mažiau priklausomą nuo paviršutiniškų pikselių derinių ir daug atsparesnį realaus pasaulio triukšmui.
Kuo skiriasi optinės iliuzijos pažeidžiamumas tarp kompiuterinių modelių ir žmonių?
Žmonių optinės iliuzijos kyla todėl, kad mūsų smegenys naudoja sudėtingas trumpas taisykles dėl gylio, šešėlio ir judėjimo, kurias kartais sutrikdo tam tikri modeliai. Kompiuterinės regos modeliai nepasiduoda šiems žmonių spąstams, tačiau kenčia nuo visiškai unikalių matematinių iliuzijų. Pavyzdžiui, dirbtinis intelektas gali matyti keistą tekstūrą ant sienos ir užtikrintai teigti, kad tai gyvas gyvūnas, nes pikselių dažniai idealiai sutampa.
Kas yra įkūnijimas ir kodėl jis laikomas labai svarbiu natūralios kompiuterinės regos ateičiai?
Įkūnijimas – tai dirbtinio intelekto įdėjimas į fizinį kūną, pavyzdžiui, robotą, leidžiant jam tiesiogiai sąveikauti su aplinka. Šis fizinis buvimas yra labai svarbus, nes leidžia dirbtiniam intelektui mokytis per veiksmus, pavyzdžiui, judant aplink objektą, kad jį pamatytų iš įvairių kampų, arba pakeliant jį, kad suprastų jo formą. Šis interaktyvus grįžtamojo ryšio veidrodis sukuria daug gilesnį, žmogui panašų erdvės supratimą, nei kada nors galėtų žiūrėti į statinius žiniatinklio duomenų rinkinius.
Nuosprendis
Kompiuterinės regos sistemas naudokite, kai reikia apdoroti didžiulius statinių skaitmeninių vaizdų kiekius žaibišku greičiu ir užtikrinti nepriekaištingą pikselių lygio nuoseklumą. Tačiau kurdami naujos kartos dirbtinio intelekto architektūras, kurios turi efektyviai mokytis iš minimalių duomenų ir orientuotis nenuspėjamoje, chaotiškoje fizinėje aplinkoje, atkreipkite dėmesį į natūralų vaizdo suvokimą.