Erdvinės transformacijos ir spalvų transformacijos vaizduose
Nors erdvinės transformacijos keičia vaizdo geometrinę struktūrą ir pikselių koordinates, kad padėtų dirbtinio intelekto modeliams atpažinti objektus, neatsižvelgiant į jų orientaciją ar mastelį, spalvų transformacijos modifikuoja pikselių intensyvumo vertes visuose spalvų kanaluose, kad užtikrintų, jog kompiuterinio matymo sistemos išliktų atsparios kintančioms apšvietimo sąlygoms ir aplinkos šešėliams.
Akcentai
Erdviniai pakeitimai keičia pikselių vietas, paliekant jų pagrindines spalvų reikšmes nepakeistas.
Spalvų koregavimai keičia pikselių kanalų intensyvumą, o koordinatės lieka visiškai fiksuotos.
Geometriniai poslinkiai reikalauja nedelsiant perskaičiuoti objekto aptikimo ribojančius langelius.
Spalvų pakeitimai imituoja orus ir jutiklių keliamą triukšmą nekeisdami konstrukcinių ribų.
Kas yra Erdvinės transformacijos?
Vaizdo kadre esančių pikselių geometrinių koordinačių ir struktūrinio išdėstymo keitimas.
Jie pertvarko pikselių vietą 2D erdvėje nekeisdami jų būdingų spalvų formulių.
Įprasti metodai apima horizontalų apvertimą, pasukimą, apkarpymą, mastelio keitimą ir afininį iškraipymą.
Jiems reikia modifikuoti atitinkamas ribojančios dėžės koordinates objektų aptikimo mokymo metu.
Jie moko neuroninius tinklus erdvinio nekintamumo, leisdami jiems pastebėti objektus iš bet kokio žiūrėjimo kampo.
Dėl didelių geometrinių iškraipymų kartais gali būti ištrintas svarbus kontekstas arba už jo ribų iškirpti svarbūs elementai.
Kas yra Spalvų transformacijos?
Pikselių intensyvumo verčių ir spalvų kanalų balansų reguliavimas nekeičiant vaizdo geometrijos.
Jie perrašo pikselių spalvų vertes, išlaikydami visiškai fiksuotas tikslias jų koordinates.
Įprastos operacijos apima ryškumo reguliavimą, kontrasto derinimą, histogramos išlyginimą ir atspalvių keitimą.
Jie imituoja skirtingas aplinkos būsenas, tokias kaip ryto šviesa, atšiauri vidurdienio saulė arba naktiniai šešėliai.
Jie padeda išvengti kompiuterinio matymo sistemų gedimų, kai susiduriama su realiais oro sąlygų ar apšvietimo pokyčiais.
Per didelis spalvų sodrumas arba išblukinimas gali netyčia sunaikinti subtilias tekstūras, kurias modeliai naudoja duomenims klasifikuoti.
Palyginimo lentelė
Funkcija
Erdvinės transformacijos
Spalvų transformacijos
Pagrindinis dėmesys
Geometrinė struktūra ir pikselių išdėstymas
Pikselių intensyvumas ir spalvų spektro vertės
Pikselių koordinatės
Dinamiškai keičiamas naudojant atvaizdavimo formules
Išlikti visiškai statiškam ir nepakitusiam
Pagrindinės dirbtinio intelekto mokymo nauda
Moko orientacijos ir mastelio nekintamumo
Moko apšvietimo ir aplinkos nekintamumo
Anotacijos poveikis
Reikia atnaujinti ribojančius langelius arba segmentavimo kaukes
Anotacijos ir etiketės išlieka visiškai identiškos
Tipinės operacijos
Sukimas, mastelio keitimas, kirpimas, perkėlimas
Ryškumas, kontrastas, sodrumas, saulės spinduliuotė
Erdvinės transformacijos remiasi geometrinių atvaizdavimo matricomis, kad perkeltų pikselius iš jų pradinių koordinačių į naujas vietas dvimatėje tinklelyje. Kai vaizdas sukasi arba tempiamas, interpoliacijos algoritmai turi apskaičiuoti, kur patenka duomenys, kad naujame kadre neatsirastų tuščių tarpų. Spalvų transformacijos veikia visiškai kitoje plokštumoje, palikdamos erdvinį tinklelį nepaliestą, o matematiniai veiksmai atliekami tiesiogiai raudoname, žaliame ir mėlyname skaitmeniniuose kanaluose. Užuot perkėlus pikselio vietą, spalvų modifikacijos daugina arba prideda vertes prie pikselių intensyvumo, kad pakeistų jo išvaizdą.
Poveikis anotacijų srautams ir etiketėms
Geometrinių pakeitimų įgyvendinimas padidina mašininio mokymosi duomenų srautų sudėtingumą, nes etiketės turi deformuotis kartu su vaizdais. Jei transporto priemonės mokomasis vaizdas yra apverčiamas arba apkirpiamas, inžinerinis srautas turi akimirksniu perskaičiuoti bet kokių esamų objektų aptikimo ribojančių langelių ar segmentavimo kaukių koordinates, kad jos atitiktų naują išdėstymą. Spalvų papildymai visiškai išvengia šių skaičiavimo išlaidų. Kadangi fizinės objektų ribos niekada nejuda keičiantis ryškumui ar atspalviui, originalios mokomosios etiketės išlieka visiškai tikslios be jokio koregavimo.
Invariantiniai tikslai kompiuterinėje regoje
Šie du metodai sukuria skirtingus mentalinius modelius neuroniniame tinkle. Erdviniai koregavimai apmoko algoritmą, kad būtų pasiektas požiūrio taško invariantiškumas, užtikrinant, kad drono kamera galėtų atpažinti pastatą, nesvarbu, ar jis skrenda tiesiai virš galvos, ar artėja iš aštraus šono. Spalvų koregavimai didina atsparumą aplinkai, paruošdami modelį chaotiškai fizinio pasaulio realybei. Tai užtikrina, kad veido atpažinimo sistema arba autonominės transporto priemonės kamera patikimai veiktų giedrą popietę, rūkanotą rytą arba esant dirbtiniam natrio gatvių apšvietimui.
Rizikos profiliai ir per didelis iškraipymas
Abu metodai gali pakenkti mokymo efektyvumui, jei inžinierių komandos juos taiko pernelyg agresyviai. Destruktyvus erdvinis iškraipymas gali netyčia visiškai iškirpti tikslinį objektą iš matomo kadro atsitiktinio apkirpimo metu, priversdamas tinklą mokytis neteisingų asociacijų iš tuščių fonų. Kita vertus, neapgalvotas spalvų manipuliavimas gali išplauti gyvybiškai svarbias kontrastingas linijas arba taip radikaliai pakeisti spalvas, kad modelis tampa painus, pavyzdžiui, simuliatoriuje žalias šviesoforo signalas gali tapti raudonas, o tai sutrikdo sistemos sprendimų priėmimo logiką.
Privalumai ir trūkumai
Erdvinės transformacijos
Privalumai
+Ugdo puikų perspektyvos atsparumą
+Apsaugo nuo orientacijos pagrįstų modelio šališkumų
+Imituoja įvairius kameros atstumus
+Svarbus robotikos taikymams
Pasirinkta
−Reikia atnaujinti ribojančius langelius
−Gali išryškinti gyvybiškai svarbias savybes
−Pristato pikselių interpoliacijos artefaktus
−Didesnės apdorojimo srauto išlaidos
Spalvų transformacijos
Privalumai
+Nereikia koreguoti etikečių
+Imituoja sudėtingus oro sąlygų pokyčius
+Išlygina kameros jutiklio šališkumą
+Labai mažos skaičiavimo išlaidos
Pasirinkta
−Gali sunaikinti tekstūros detales
−Nerealistiškų spalvų generavimo rizika
−Nepadeda spręsti mastelio problemų
−Gali užmaskuoti smulkius kraštus
Dažni klaidingi įsitikinimai
Mitas
Vaizdo apvertimas horizontaliai reikalauja sudėtingo tikslinių klasių perženklinimo.
Realybė
Pačių klasių žymės niekada nesikeičia, nors reikia apversti ribojančių langelių horizontalias koordinačių vertes. Šis procesas yra matematiškai paprastas ir automatizuotas šiuolaikinių duomenų srautų, nereikalaujant rankinio žmogaus įsikišimo.
Mitas
Vaizdo konvertavimas į pilkos spalvos atspalvį laikomas erdviniu optimizavimu.
Realybė
Spalvų pavertimas vienspalvėmis yra griežtai spalvų transformacija, nes raudonos, žalios ir mėlynos spalvų kanalai sujungiami į vieną intensyvumo kanalą. Kiekvienas pikselis viso proceso metu išlieka tikslioje pradinėje koordinačių padėtyje.
Mitas
Dirbtinio intelekto modeliai natūraliai supranta, kad objektas yra toks pats, kai apverčiamas aukštyn kojomis.
Realybė
Konvoliuciniai neuroniniai tinklai yra nepaprastai jautrūs orientacijai, nebent jie būtų specialiai apmokyti kitaip. Modelis, apmokytas vien tik vertikaliais laivų vaizdais, visiškai neatpažins apvirtusio laivo, nebent erdvinės transformacijos jam išmokytų tos perspektyvos.
Mitas
Spalvų koregavimas naudingas tik tam, kad vaizdai atrodytų gražesni arba švaresni mokymo tikslais.
Realybė
Pagrindinis tikslas iš tikrųjų yra padaryti vaizdus netvarkingus ir įvairius. Atsitiktinių spalvų, ryškumo ir kontrasto iškraipymų įvedimas sąmoningai meta iššūkį modeliui, neleisdamas jam pasikliauti konkrečiomis spalvų paletėmis prognozėms daryti.
Dažnai užduodami klausimai
Kodėl erdvinėms transformacijoms reikalinga pikselių interpoliacija sukimo metu?
Kai pasukate vaizdą, pavyzdžiui, 37 laipsnių kampu, pradiniai kvadratiniai pikseliai idealiai nesutampa su naujomis paskirties tinklelio sveikųjų skaičių koordinatėmis. Dėl šio nesutapimo lieka tuščių tarpų ir nelygių kraštų. Interpoliacijos algoritmai tai išsprendžia žiūrėdami į gretimus pikselius ir apskaičiuodami sklandų matematinį vidurkį, kad švariai užpildytų naujus koordinačių tarpus.
Ar spalvų transformacijos gali netyčia sukelti mašininio mokymosi modelio klaidingą objektų klasifikavimą?
Taip, jei spalvų modifikacijos nustatomos pernelyg agresyviai, jos gali perrašyti svarbias diagnostines savybes. Pavyzdžiui, jei algoritmas remiasi spalva, norėdamas atskirti nekenksmingą odos dėmę nuo piktybinės melanomos, agresyvus atspalvio keitimas gali sunaikinti šiuos diagnostinius duomenis. Inžinieriai turi nustatyti griežtas ribas, kad transformacijos nesukurtų fiziškai neįmanomų ar klaidinančių variantų.
Kas yra afininė transformacija ir ar ji priklauso erdvinių, ar spalvų transformacijų šeimai?
Afinė transformacija yra pagrindinė erdvinė technika, kuri keičia geometrinę plokštumą, išlaikant lygiagrečias linijas tiesias. Tokios operacijos kaip mastelio keitimas, sukimas, perkėlimas ir kirpimas patenka į šį matematinį skėtį. Ji susieja pradines pikselių pozicijas su naujomis koordinatėmis, naudodama matricų daugybą, todėl tai yra geometrinių duomenų papildymo kertinis akmuo.
Kaip kontrasto koregavimai keičia pagrindinius vaizdo masyvo duomenis?
Kontrasto reguliavimas veikia padidinant arba sumažinant skaitinį skirtumą tarp ryškiausių ir tamsiausių vaizdo sričių. Algoritmas nustato kadro vidutinę pilkos spalvos vertę ir padidina šviesių pikselių ryškumą, o tamsesnių – dar didesnį. Ši elementų matematinė analizė keičia kanalo matricos vertes nekeisdama nė vieno pikselio vietos.
Ar geriau šias transformacijas taikyti prieš mokymą, ar dinamiškai mokymo ciklo metu?
Šiuolaikinio dirbtinio intelekto kūrimo procese paprastai pageidaujamas jų dinaminis taikymas atmintyje mokymo ciklo metu. Šis metodas sukuria begalę unikalių variacijų operatyviai, nesunaudodamas didžiulės vietos nuolatinėje standžiojo disko saugykloje. Tai užtikrina, kad neuroninis tinklas retai kada du kartus mato tą pačią vaizdo konfigūraciją, o tai žymiai padidina apibendrinimą.
Kaip erdvinės transformacijos padeda modeliams, skirtiems autonominiam vairavimui?
Važiuodami keliais transporto priemonės susiduria su objektais iš begalinių kampų, atstumų ir aukščio pokyčių. Mokymo metu taikydami atsitiktinį mastelio keitimą, perspektyvos perkėlimą ir apkarpymą, kūrėjai imituoja tai, ką transporto priemonė patiria įvažiuodama į kalną arba keisdama eismo juostas. Šis konstrukcijos skirtumas užtikrina, kad automobilis tiksliai aptiktų pėsčiuosius, neatsižvelgiant į jo santykinę padėtį.
Kas nutinka spalvų kanalams, kai pritaikote histogramos išlyginimą?
Histogramos išlyginimas įvertina pikselių intensyvumo pasiskirstymą vaizde ir ištempia dažniausiai pasitaikančias intensyvumo vertes. Šis procesas automatiškai pagerina silpną vietinį kontrastą, išryškindamas paslėptas detales tamsiuose šešėliuose arba per daug eksponuotose ryškiose vietose. Jis dinamiškai modifikuoja spalvų balanso profilį, išlaikydamas vaizdo struktūrinį išdėstymą.
Ar galima naudoti erdvines ir spalvų transformacijas kartu tame pačiame mokymo rinkinyje?
Abiejų metodų derinimas automatizuotame duomenų papildymo sraute yra standartinė pramonės praktika. Mokymo srautas įprastai paima bazinį vaizdą, pritaiko atsitiktinį pasukimą, įterpia geometrinį apkarpymą, o tada sluoksniuoja ryškumo poslinkį ir atsitiktinį triukšmą. Šis dviejų sluoksnių iškraipymo srautas verčia dirbtinį intelektą mokytis labai sudėtingų, patikimų vaizdinių modelių.
Nuosprendis
Rinkitės erdvines transformacijas, kai jūsų dirbtinio intelekto modeliui reikia atpažinti objektus, kurie realiame pasaulyje atrodo nenuspėjamais kampais, atstumais ar orientacijomis. Derinkite jas su spalvų transformacijomis, kai jūsų diegimo aplinkai būdingas nenuspėjamas apšvietimas, besikeičiančios oro sąlygos arba skirtingos kameros jutiklių savybės, kurios keičia spalvų profilius.