dirbtinis intelektasgilusis mokymasiskompiuterinis matymasduomenų mokslas
Vaizdo išankstinis apdorojimas ir funkcijų mokymasis giliuose tinkluose
Nors vaizdo išankstinis apdorojimas standartizuoja ir išvalo neapdorotus pikselių duomenis prieš jiems patenkant į neuroninį tinklą, funkcijų mokymasis priklauso nuo paties tinklo, kad mokymo metu automatiškai atrastų sudėtingus vaizdinius modelius, perkeldamas sunkų darbą nuo rankinės duomenų inžinerijos prie duomenimis pagrįsto algoritminio optimizavimo.
Akcentai
Išankstinis apdorojimas yra deterministinis paruošimo žingsnis, o požymių mokymasis yra adaptyvus optimizavimo procesas.
Rankinis įsikišimas apibrėžia išankstinio apdorojimo etapą, o tinklo architektūra skatina automatizuotą funkcijų aptikimą.
Išankstinis apdorojimas standartizuoja duomenų išdėstymą; funkcijų mokymasis iš to išdėstymo išgauna kontekstinę reikšmę.
Be tinkamo išankstinio apdorojimo, optimizavimo matematika, kuria grindžiamas funkcijų mokymasis, dažnai sugenda arba skiriasi.
Kas yra Vaizdo išankstinis apdorojimas?
Aiškus, rankinis neapdorotų vaizdų manipuliavimas siekiant juos standartizuoti, pašalinti triukšmą ir formatuoti prieš mokymą.
Tai vyksta visiškai už pagrindinės neuroninio tinklo architektūros ribų kaip deterministinis duomenų paruošimo žingsnis.
Įprastos operacijos apima pikselių vertės normalizavimą, dydžio keitimą iki vienodų matmenų ir spalvų erdvės konvertavimą.
Tai labai priklauso nuo žmonių inžinerijos, srities žinių ir klasikinių kompiuterinio matymo algoritmų.
Tinkamas išankstinis apdorojimas drastiškai stabilizuoja matematinius gradientus ir pagreitina modelio mokymo konvergenciją.
Šiame apdorojimo etape atliekami duomenų papildymo metodai, tokie kaip atsitiktiniai apvertimai ir pasukimai.
Kas yra Funkcijų mokymasis?
Automatizuotas procesas, kurio metu gilieji neuroniniai tinklai atranda ir iš duomenų išskiria reikšmingus vaizdinius modelius.
Tai vyksta viduje, per nuoseklius paslėptus sluoksnius, tinklo optimizavimo proceso metu.
Ankstyvieji tinklo sluoksniai natūraliai izoliuoja paprastas briaunas, o gilesni sluoksniai sudaro sudėtingus abstrakčius objektus.
Tai pašalina istorinę kliūtį, kai rankiniu būdu buvo kuriami tokie elementų aprašai kaip SIFT ar HOG.
Procesas dinamiškai prisitaiko per atgalinį sklidimą, pagrįstą nuostolių funkcija ir mokymo duomenų rinkiniu.
Išmoktos savybės yra labai specifinės užduočiai, todėl maksimaliai padidina klasifikavimo ar aptikimo tikslumą.
Palyginimo lentelė
Funkcija
Vaizdo išankstinis apdorojimas
Funkcijų mokymasis
Vykdymo taškas
Prieš duomenims patenkant į neuroninio tinklo srautą
Viduje atliekant perdavimus pirmyn ir atgal
Automatizavimo lygis
Rankinis kūrėjų konfigūravimas
Visiškai automatizuota neuroninio tinklo sluoksnių
Pagrindinis tikslas
Standartizuokite formatą ir stabilizuokite optimizavimo matematiką
Deterministinės matematinės transformacijos ir filtrai
Gradientinis nusileidimas, atgalinis sklidimas ir svoriai
Aparatinės įrangos naudojimas
Dažnai skaičiuojama CPU duomenų įkrovimo srautuose
Labai priklauso nuo matricos spartinimo per GPU / TPU
Domeno priklausomybė
Reikalingos ekspertų žinios apie vaizdo savybes
Netiesiogiai mokosi reprezentacijų iš neapdorotų duomenų pasiskirstymo
Išsamus palyginimas
Darbo eigos pozicija ir vykdymas
Vaizdų išankstinis apdorojimas atlieka pradinio vartininko vaidmenį, transformuodamas chaotiškus realaus pasaulio vaizdus į standžius, struktūrizuotus skaitmeninius masyvus. Jis atlieka tokius būtinus veiksmus kaip apkirpimas, vienodas dydžio keitimas ir pikselių intensyvumo mastelio keitimas iki stabilaus diapazono, pvz., nuo 0 iki 1, dar prieš modeliui pamatant duomenis. Priešingai, kai šie standartizuoti tenzoriai patenka į tinklą, pradeda veikti požymių mokymasis, dinamiškai koreguodamas ryšio svorius skirtinguose sluoksniuose, kad užfiksuotų abstrakčias vizualines koncepcijas.
Žmogaus kontrolė ir algoritminė autonomija
Išankstinis apdorojimas iš esmės yra žmogaus atliekamas procesas, kurio metu kūrėjai užkoduoja konkrečias matematines taisykles, pagrįstas ankstesnėmis prielaidomis apie duomenų rinkinį. Jei kūrėjas nusprendžia sulieti vaizdą, kad sumažintų triukšmą, šis pasirinkimas išlieka nuolatinis ir nekintamas viso apdorojimo metu. Funkcijų mokymasis pašalina šį žmogaus šališkumą, leisdamas konvoliuciniams filtrams patiems mokytis to, kas svarbu, ir rasti subtilias pikselių koreliacijas, kurių žmogus inžinierius niekada nepagalvotų programuoti.
Skaičiavimo sudėtingumas ir aparatinės įrangos poreikis
Kadangi išankstinis apdorojimas remiasi paprasta tiesine algebra ir tradiciniu pikselių manipuliavimu, jis yra lengvai skaičiuojamas ir paprastai efektyviai veikia procesoriuose duomenų įkėlimo etape. Funkcijų mokymasis yra daug sudėtingesnis, nes reikia milijonų slankiojo kablelio matricų daugybos operacijų, gradientams judant pirmyn ir atgal. Dėl šio sudėtingo matematinio našumo funkcijų mokymasis priklauso nuo didžiulės lygiagretaus apdorojimo galios, esančios šiuolaikinėse vaizdo plokštėse ir specializuotuose dirbtinio intelekto greitintuvuose.
Poveikis apibendrinimui ir prisitaikymui
Išmanūs išankstinio apdorojimo veiksmai, tokie kaip duomenų papildymas, dirbtinai išplečia duomenų rinkinį, neleisdami modeliui įsiminti konkrečių orientacijų ir padėdami jį apibendrinti realiame pasaulyje. Elementų mokymasis tiesiogiai išnaudoja šią įvairovę, kurdamas tvirtas vidines formų ir tekstūrų hierarchijas, kurios gali prisitaikyti prie skirtingų vizualinių užduočių. Teisingai derinant, tikslus išankstinis apdorojimas sukuria stabilų pagrindą, leidžiantį automatizuotam elementų mokymuisi pasiekti maksimalų tikslumą.
Privalumai ir trūkumai
Vaizdo išankstinis apdorojimas
Privalumai
+Užtikrina nuoseklias įvesties formas
+Sumažina skaičiavimo mokymo išlaidas
+Žymiai pagerina skaitinį stabilumą
+Neleidžia mokytis nereikalingo triukšmo
Pasirinkta
−Reikalingas rankinis projektavimas
−Gali netyčia ištrinti svarbius duomenis
−Sukelia vamzdynų kliūtis prieš srovę
−Labai priklauso nuo srities žinių
Funkcijų mokymasis
Privalumai
+Pašalina rankinį funkcijų projektavimą
+Prisitaiko prie sudėtingų duomenų
+Atranda paslėptas matematines koreliacijas
+Suteikia galingas perkėlimo mokymosi galimybes
Pasirinkta
−Reikalingi didžiuliai mokymo duomenų rinkiniai
−Reikalingas didžiulis GPU spartinimas
−Veikia kaip juodoji dėžė
−Linkę per daug pritaikyti mažus duomenis
Dažni klaidingi įsitikinimai
Mitas
Giluminio mokymosi modeliai yra pakankamai išmanūs, kad visiškai apeitų vaizdų išankstinį apdorojimą.
Realybė
Nors neuroniniai tinklai puikiai išskiria šablonus, nesutampančių matmenų arba nenormalizuotų pikselių verčių tiekimas sukelia chaotiškus gradiento sprogimus. Bazinis struktūrinis standartizavimas išlieka absoliučiai nekeičiamas siekiant stabilios mokymo konvergencijos.
Mitas
Vaizdų išankstinis apdorojimas ir duomenų papildymas yra visiškai ta pati sąvoka.
Realybė
Išankstinis apdorojimas parengia kiekvieną vaizdą tiek mokymo, tiek testavimo rinkiniuose, kad atitiktų pagrindinius inžinerinius apribojimus, pvz., vienodą dydį. Papildymas yra atskiras tik mokymo etapų pogrupis, skirtas dirbtinei įvairovei įdiegti ir pertekliniam pritaikymui išvengti.
Mitas
Funkcijų mokymasis visiškai pakeičia tradicinį kompiuterinio matymo procesą.
Realybė
Gilusis mokymasis pakeitė rankinius požymių aprašus, tokius kaip SIFT, tačiau jis remiasi tradiciniais lokalizuoto sekimo, slenksčių nustatymo ir kameros kalibravimo metodais. Klasikinis vaizdų apdorojimas ir šiuolaikiniai gilieji tinklai veikia kaip partneriai, o ne konkurentai.
Mitas
Funkcijų mokymosi procesas gali ištaisyti labai sugadintus arba neįtikėtinai mažos skiriamosios gebos šaltinio vaizdus.
Realybė
Neuroniniams tinklams galioja duomenų mokslo taisyklė „šiukšlių įvedimas – šiukšlių išvedimas“. Jei jūsų išankstinis apdorojimas nepavyksta atkurti paslėptų detalių arba sumažinti didelio objektyvo suliejimo, tinklas tiesiog išmoks pastebėti beprasmius triukšmo artefaktus.
Dažnai užduodami klausimai
Kodėl gilus tinklas negali išmokti pats keisti vaizdų dydžio mokymo metu?
Neuroninių tinklų architektūros matematiškai kuriamos remiantis statiniais tenzorių matmenimis, o tai reiškia, kad matricų operacijoms konvoliuciniuose sluoksniuose atlikti reikalingas fiksuotas įvesties tinklelis. Jei į standartinį modelį perduosite vaizdus su labai skirtingais kraštinių santykiais arba pikselių skaičiumi, prieš tai jų nekeisdami, matricų daugybos lygtys visiškai suges. Formų standartizavimas išankstinio apdorojimo metu užtikrina, kad modelis galėtų nuosekliai suderinti savo svorius kiekviename pavyzdyje.
Kaip pikselių normalizavimas padeda funkcijų mokymosi etape?
Neapdoroto vaizdo pikseliai yra sveikieji skaičiai nuo 0 iki 255, kurie atgalinio perdavimo metu gali lemti didžiulius, nevaldomus skaičius. Sumažinus šias vertes iki siauro dešimtainio diapazono, pvz., nuo 0 iki 1 arba nuo -1 iki 1, matematiniai gradientai išlieka stabilūs, jiems tekant atgal per paslėptus sluoksnius. Šis vienodumas užtikrina, kad joks ryškus pikselis ar labai sodri sritis neužgožtų svorio atnaujinimų, todėl tinklas gali tolygiai mokytis subtilių tekstūrų.
Ar vaizdo konvertavimas į pilkos spalvos atspalvį sunaikina tinklo gebėjimą mokytis funkcijų?
Atsisakius spalvų kanalų, pašalinami atspalvio ir sodrumo duomenys, o tai sumažina našumą, jei jūsų užduotis priklauso nuo spalvų užuominų, pavyzdžiui, šviesoforų atpažinimas ar vaisių rūšiavimas. Tačiau atliekant struktūrines užduotis, tokias kaip medicininė rentgeno analizė ar teksto skaitymas, pilkos spalvos konvertavimas įvesties matricą supaprastina dviem trečdaliais neprarandant struktūrinio vientisumo. Šis sumažinimas leidžia tinklui visą savo skaičiavimo galią sutelkti į briaunų, geometrijos ir tekstūrų mokymąsi.
Kuriuo gilaus tinklo momentu iš tikrųjų vyksta funkcijų mokymasis?
Funkcijų mokymasis vyksta palaipsniui per visą konvoliucinio neuroninio tinklo struktūrinį gylį. Pirmieji paslėpti sluoksniai naudoja pagrindinius filtrus, kad paryškintų neapdorotus pikselių pokyčius, išskirdami paprastas ribas, horizontalias linijas ir aštrius kraštus. Judant giliau į vidurinius ir galutinius konvoliucinius blokus, tinklas sujungia tas pradines linijas į sudėtingas geometrines figūras, tekstūras ir galiausiai į pilnus semantinius objektus.
Ar per didelis duomenų rinkinio išankstinis apdorojimas gali pakenkti automatizuotam funkcijų mokymosi procesui?
Agresyvus išankstinis apdorojimas gali netyčia pašalinti tikslius pagrindinius variantus, kurių tinklui reikia norint sukurti patikimus vidinius modelius. Pavyzdžiui, jei pritaikysite stiprų suliejimo filtrą, kad pašalintumėte vaizdo triukšmą, tuo pačiu metu galite ištrinti mikrotekstūras, kurios yra gyvybiškai svarbios diagnostikos užduotims. Tinkamos pusiausvyros pasiekimas reiškia akivaizdžios struktūrinės netvarkos pašalinimą, paliekant neapdorotus kontekstinius duomenis nepažeistus, kad tinklas galėtų juos dekoduoti.
Kaip iš anksto apmokyti modeliai panaudoja funkcijų mokymąsi perkėlimo mokymosi metu?
Perkeliamasis mokymasis veikia todėl, kad modelis, apmokytas naudojant didžiulį bendrą duomenų rinkinį, jau yra sunaudojęs milžiniškus skaičiavimo pajėgumus mokydamasis bendrų vizualinių struktūrų, tokių kaip briaunos, kreivės ir šešėliavimas. Kai šį modelį pritaikote naujai užduočiai, jūs įšaldote tuos ankstyvuosius, labai apibendrintus funkcijų mokymosi sluoksnius ir iš naujo apmokate tik galutinį išvesties sluoksnį. Šis sutrumpintas metodas leidžia praleisti skaičiavimo požiūriu daug pastangų reikalaujantį pradinį funkcijų mokymosi etapą, tuo pačiu pasinaudojant labai sudėtingu vizualiniu pagrindu.
Kuo skiriasi tradicinis požymių išskyrimas ir modernus požymių mokymasis?
Tradicinis požymių išskyrimas reikalauja, kad žmonės inžinieriai atsisėstų ir naudotų matematines lygtis, kad sukurtų konkrečius deskriptorius, tiksliai nurodydami kompiuteriui, kaip ieškoti formų. Šiuolaikinis požymių mokymasis visiškai pakeičia šį scenarijų, leisdamas tinklui automatiškai išmokti optimalius vaizdinius filtrus, sąveikaujant su duomenimis. Šis duomenimis pagrįstas metodas leidžia giliesiems modeliams atrasti sudėtingus, labai abstrakčius pikselių ryšius, kurių žmonės negali lengvai apibrėžti.
Ar turėčiau tvarkyti vaizdo išankstinį apdorojimą procesoriuje, ar perkelti jį į vaizdo plokštę (GPU)?
Paprastos, deterministinės transformacijos, tokios kaip pagrindinis apkirpimas, dydžio keitimas ir pikselių mastelio keitimas, paprastai atliekamos procesoriuje naudojant gijų pagrindu veikiančius duomenų įkroviklius, kol grafikos procesorius optimizuoja svorius. Tačiau jei jūsų duomenų sraute yra sudėtingų, realaus laiko duomenų papildymų, pvz., atsitiktinių perspektyvos poslinkių, šių operacijų vykdymas tiesiogiai grafikos procesoriuje gali padėti išvengti duomenų trūkumo. Subalansuotas duomenų paruošimas užtikrina, kad jūsų galingos vaizdo plokštės niekada nestovėtų nenaudojamos laukdamos kitos partijos.
Nuosprendis
Pasirinkite patikimą išankstinio apdorojimo srautą, kad užtikrintumėte skaičiavimo stabilumą ir tvarkytumėte neapdorotų duomenų rinkinių variacijas, tačiau visiškai pasikliaukite funkcijų mokymusi, kad nubraižytumėte sudėtingus, aukšto lygio vizualinius modelius, reikalingus maksimaliam modelio tikslumui.