Papildytosios realybės duomenys ir tikros kameros duomenys
Šiame palyginime išsamiai aprašomi dirbtinio intelekto mokymo skirtumai tarp papildytosios realybės (AR) duomenų, kurie sintetinius, skaitmeniniu būdu sugeneruotus elementus perkelia į fizinę aplinką, ir realių kamerų duomenų, kurie remiasi vien tik neapdorotais, nepakeistais pikselių srautais, užfiksuotais fizinių vaizdo jutiklių.
Akcentai
Papildytosios realybės duomenys suteikia akimirksniu sukuriamas etiketes be klaidų, be žmogiškojo anotavimo išlaidų.
Tikri kameros duomenys fiksuoja svarbius jutiklių trūkumus, tokius kaip judesio suliejimas, kurį modeliai turi išmokti valdyti.
AR duomenys leidžia kūrėjams saugiai rašyti labai pavojingų arba retų kraštutinių atvejų scenarijus modelių mokymui.
Sujungus abu duomenų srautus, paprastai gaunamos patikimiausios, diegimui paruoštos kompiuterinio matymo sistemos.
Kas yra Papildytos realybės duomenys?
Hibridinis duomenų srautas, jungiantis fizinius fonus su matematiškai tobulais, pikseliais susietais sintetiniais 3D perdengimais.
Tai užtikrina nepriekaištingą, automatizuotą skaitmeninių išteklių, įterptų į kadrą, žymėjimą pagal faktinį teisingumą.
Inžinieriai gali programiškai akimirksniu keisti sintetinių elementų apšvietimą, padėtį ir uždengimo kampus.
Tai leidžia komandoms saugiai imituoti didelės rizikos mokymo scenarijus, pavyzdžiui, pėsčiąjį, žengiantį priešais transporto priemonę.
Sintetiniai komponentai gali nukentėti nuo „realybės spragos“, kai dirbtinis intelektas nesugeba apibendrinti iki netvarkingų fizinių atitikmenų.
Jis plačiai naudojamas erdvinių skaičiavimų ausinėms ir mobiliosioms papildytosios realybės programoms mokyti esant idealiai kontroliuojamiems kintamiesiems.
Kas yra Tikri kameros duomenys?
Autentiški vaizdai, užfiksuoti fiziniais lęšiais ir vaizdo jutikliais nenuspėjamoje, realioje aplinkoje.
Jame yra natūralių jutimo trūkumų, tokių kaip objektyvo blyksniai, judesio suliejimas, jutiklio triukšmas ir riedančio užrakto artefaktai.
Šių duomenų žymėjimas reikalauja intensyvaus rankinio žmogaus darbo, dėl kurio atsiranda žmogiškasis šališkumas ir anotavimo klaidos.
Tai atspindi begalinį, chaotišką fizinio pasaulio sudėtingumą, kurio matematiniai simuliatoriai negali iki galo atkartoti.
Didžiulių tikrų vaizdų kolekcijų rinkimas kelia rimtų iššūkių duomenų privatumui, BDAR atitikčiai ir sutikimo gavimui.
Išskirtinai su juo apmokyti modeliai pasižymi aukščiausiu baziniu patikimumu, kai yra diegiami netvarkingoje, neribotoje aplinkoje.
Palyginimo lentelė
Funkcija
Papildytos realybės duomenys
Tikri kameros duomenys
Anotacijos procesas
100 % automatizuotas, programinis tobulų ribojančių langelių ir kaukių generavimas.
Reikalingas rankinis žmogaus atliekamas anotavimas arba pusiau automatizuotas ženklinimo euristika.
Vizualinė ištikimybė
Mišrus; puikiai dera geometrinės formos, sluoksniuotos ant tikro fono.
Visiškai organiškas; priklausomas nuo realaus pasaulio fizikos, šviesos sklaidos ir jutiklių trūkumų.
Kraštinių atvejų generavimas
Trivialu sukurti scenarijaus būdu pateikiant retus arba pavojingus įvykius.
Nepaprastai sunku, priklausoma nuo atsitiktinių susidūrimų ar pavojingų scenų.
Mastelio keitimas
Beribis mastelio keitimas naudojant lygiagrečius debesų vaizdavimo variklius.
Linijinio mastelio apribojimai, kuriuos riboja fizinės įrangos diegimas ir nuvažiuoti kilometrai.
Privatumo apribojimai
Nereikšmingas, nes pagrindiniai naujovių elementai yra generuojami sintetiniu būdu.
Aukštas; reikalingas aktyvus veido suliejimas, numerio ženklų maskavimas ir atitikties stebėjimas.
Domeno šališkumas
Linkęs į perteklinį indeksavimą ant aiškių tekstūrų ir tikslių matematinių daugiakampių.
Linkę į lokalizuotus aplinkos šališkumus, pagrįstus tuo, kur keliavo kameros.
Išsamus palyginimas
Tobulumo ir chaoso paradoksas
Papildytosios realybės duomenys suteikia inžinerinę svajonę: absoliutų geometrinį tikrumą. Kadangi programinės įrangos variklis matematiškai įterpia 3D išteklius į sceną, dirbtinio intelekto mokymo sistema žino tikslias objekto milimetro ribas. Tikri kameros duomenys šį tobulumą paneigia, sukurdami chaotišką chromatinės aberacijos, dulkių turinčių lęšių ir nenuspėjamo atmosferos sklaidos sriubą. Nors švari AR duomenų struktūra pagreitina ankstyvą struktūrinį mokymąsi, tikrų kamerų srautų neapdorotas chaosas verčia dirbtinį intelektą kurti atsparumą realiam pasauliui.
Mastelio keitimas ir ženklinimo logistika
Modelio mastelio keitimas naudojant realius kameros duomenis atrodo kaip didžiulis logistinis darbas, reikalaujantis daugybės transporto priemonių ar jutiklių masyvų ir tūkstančių žmonių, valandų valandas spustelėjančių pikselius. Jei komanda staiga nusprendžia, kad vietoj 2D ribojančių langelių jiems reikia semantinės segmentacijos kaukių, visą realaus pasaulio duomenų rinkinį reikia iš naujo žymėti. Naudodami papildytosios realybės duomenis, kūrėjai tiesiog pakeičia kelias atvaizdavimo kodo eilutes ir per naktį debesies serveriuose sugeneruoja milijonus naujai suformatuotų, tobulai užmaskuotų mokymo rėmelių.
Realybės atotrūkio mažinimas
Pagrindinis iššūkis, kai intensyviai remiamasi papildytosios realybės duomenimis, yra liūdnai pagarsėjusi „realybės spraga“. Kompiuterinės regos modeliai, intensyviai apmokyti naudojant atvaizduotus perdengimus, dažnai specializuojasi atpažinti tas konkrečias skaitmenines tekstūras ir šešėlių raštus. Patalpintas gamyklos grindyse ar viešoje gatvėje, modelio patikimumas gali staiga sumažėti, nes realūs fiziniai objektai rodo organinį nusidėvėjimą, nešvarumus ir sudėtingus atspindžius, kurių papildytosios realybės grafikos kanalas nesugebėjo imituoti.
Retų įvykių ir saugos pavojų tvarkymas
Kalbant apie dirbtinio intelekto mokymą pastebėti didelės reikšmės anomalijas, pavyzdžiui, padangos sprogimą greitkelyje ar retą medicininę avariją išmaniajame vežimėlyje, realių kamerų duomenys yra labai nepraktiški. Šių gyvybei pavojingų įvykių inscenizavimas ir filmavimas yra neetiškas ir finansiškai per brangus. Papildytoji realybė puikiai išsprendžia šią kliūtį, leisdama kūrėjams saugiai uždėti hiperrealistines skaitmenines nelaimes ant įprastų, saugiai įrašytų fizinių fonų.
−Reikalingas sudėtingas 3D išteklių inžinerijos darbas
−Gali ignoruoti sudėtingas jutiklių anomalijas
−Reikalingi sudėtingi atvaizdavimo kanalai
Tikri kameros duomenys
Privalumai
+Užfiksuoja tikras fizines tekstūras
+Apima natūralius optinius defektus
+Nešališkas teikiant programinės įrangos sprendimus
+Patikimas lauko sąlygomis diegimo metu
Pasirinkta
−Per didelės žmonių anotacijų išlaidos
−Labai sunku saugiai padidinti mastelį
−Apkrauta teisinėmis privatumo kliūtimis
−Reti kraštutiniai atvejai retai užfiksuojami
Dažni klaidingi įsitikinimai
Mitas
Papildytosios realybės duomenys yra visiškai identiški grynai sintetiniams duomenims, generuojamiems simuliatoriuje.
Realybė
Grynai sintetiniai duomenys sukuria visą sceną nuo nulio grafikos variklyje, įskaitant foną. AR duomenys yra atskiras hibridinis metodas, kai realus, fiziškai įrašytas kameros fonas įterpiamas į organinę aplinką ir skaitmeniniai ištekliai įterpiami į tą organinę aplinką, išlaikant tikrąjį foninį triukšmą.
Mitas
Žmonių sukurti žymėjimai AR duomenyse visada yra tikslesni nei automatinės žymės.
Realybė
Žmonės, rašantys etikečių, kenčia nuo nuovargio, dėl kurio atsiranda laisvi ribojantys langeliai ir trūksta pikselių, ypač sudėtingose scenose. AR sekimo duomenys išveda matematiškai tobulas ribojančias koordinates iki subpikselių lygio, visiškai pašalindami žmogaus sukurtus variantus.
Mitas
Jei dirbtinio intelekto modelis nepriekaištingai veikia su AR patobulintais vaizdo įrašais, jis yra paruoštas diegimui realiame pasaulyje.
Realybė
Tai pavojinga prielaida, nepaisanti realybės atotrūkio. Neuroniniai tinklai dažnai fiksuoja subtilius, nematomus matematinius modelius, kuriuos palieka 3D vizualizavimo varikliai, todėl modelis staiga sugenda susidūręs su netvarkingomis realių fizinių objektų tekstūromis.
Mitas
Norint rinkti tikrus kameros duomenis, tereikia pritvirtinti kamerą ir pradėti įrašymą.
Realybė
Fizinio duomenų rinkimo procesą stabdo operaciniai sunkumai. Komandos turi orientuotis griežtuose tarptautiniuose privatumo reglamentuose, tokiuose kaip BDAR, tvarkyti duomenų saugojimo įrangos logistiką, išfiltruoti tūkstančius valandų nereikalingos filmuotos medžiagos ir užtikrinti įvairiapusį orų vaizdavimą.
Dažnai užduodami klausimai
Kokius metodus inžinieriai naudoja, kad AR duomenys realiame pasaulyje nepasiteisintų?
Norėdami įveikti realybės atotrūkį, kūrėjai naudoja metodiką, vadinamą domenų atsitiktine atranka. Užuot bandę sukurti tobulai fotorealistišką papildytosios realybės grafiką, inžinieriai sąmoningai maišo tokius kintamuosius kaip tekstūros raštai, apšvietimo kampai, šešėlių intensyvumas ir spalvos per įvairius, nerealistiškus diapazonus. Tai verčia neuroninį tinklą ignoruoti paviršinius paviršiaus stilius ir visiškai sutelkti dėmesį į pagrindines objekto geometrines struktūras.
Kodėl negalime 100 % pasikliauti realiais kamerų duomenimis, kurdami autonominio vairavimo dirbtinį intelektą?
Realių kamerų duomenys sunkiai sprendžia mašininio mokymosi „ilgosios uodegos“ problemą. Transporto priemonė galėtų nuvažiuoti milijonus mylių įprastais keliais ir niekada nematytų, kaip namas skrieja per tornadą ar tigras pabėga į greitkelį. Kadangi autonominė transporto priemonė privalo žinoti, kaip reaguoti į šiuos absurdiškai retus įvykius, kūrėjai naudoja papildytosios realybės (AR) perdengimus, kad šiuos išskirtinius atvejus įtrauktų į standartinius vairavimo srautus.
Ar fizinio kameros objektyvo tipas turi įtakos AR duomenimis apmokytų modelių našumui?
Taip, iš esmės. Tikri objektyvai sukelia unikalių iškraipymų, tokių kaip chromatinė aberacija, vinjetavimas ir statinės formos iškraipymas. Jei AR objektą idealiai lygiai uždeda ant kadro neimituojant šių specifinių optinių iškraipymų, neuroninis tinklas išmoksta atpažinti objektą tiesiog pagal iškraipymų nebuvimą, todėl modelis tampa nenaudingas neapdorotų kamerų sistemose.
Kuo skiriasi duomenų privatumas naudojant AR duomenis ir realių kamerų vaizdus?
AR duomenys suteikia didžiulį atitikties pranašumą. Kadangi pagrindiniai tiriami objektai, pavyzdžiui, konkretus mažmeninės prekybos inventorius, nestandartiniai įrenginiai ar retos transporto priemonės, yra skaitmeniniai modeliai, išvengiama patentuotų dizainų ar ribotos aplinkos fiksavimo. Renkant duomenis realiomis kameromis nuolat kyla rizika užfiksuoti nekaltus praeivius, namų interjerus ar valstybinius numerius, todėl reikalingi sudėtingi automatizuoti redagavimo procesai.
Ar AR duomenų generavimas yra brangesnis skaičiavimo požiūriu, palyginti su mokymu su tikrais vaizdais?
Nors mokymas su tikrais vaizdais sunaudoja tik standartinius gilaus mokymosi skaičiavimus, AR duomenų generavimui reikia papildomo atvaizdavimo etapo, paprastai naudojant galingus 3D variklius, tokius kaip „Unreal Engine“ arba „Unity“. Tačiau apskaičiavus finansinį kompromisą, debesijos kompiuterijos sąnaudos, reikalingos milijonams AR kadrų atvaizduoti, yra daug pigesnės nei mokėti žmonių darbo jėgos tinklams, kad jie rankiniu būdu nupieštų ribojančius langelius tikruose failuose.
Ar AR duomenys gali padėti apmokyti dirbtinio intelekto sistemas suprasti sudėtingas fizines sąveikas, tokias kaip susidūrimai?
Tai įmanoma, jei AR generavimo grandinė yra susieta su aukštos kokybės fizikos varikliu. Sujungus standaus kūno dinamiką su vaizdiniu vaizdavimu, AR grandinė gali imituoti, kaip skaitmeninė dėžutė atsimuša nuo tikros betoninės sienos. Tačiau jei fizikos varikliui trūksta tikslumo, dirbtinis intelektas išmoks nerealistiškų judėjimo modelių, kurie neatitinka realaus pasaulio mechaninio elgesio.
Koks generatyvinio dirbtinio intelekto ir GAN vaidmuo subalansuojant šiuos du duomenų tipus?
Generatyviniai priešpriešiniai tinklai (GAN) ir modernūs difuzijos modeliai veikia kaip galingas tiltas tarp šių dviejų formatų. Komandos dažnai naudoja vaizdų vertimo modelius, kad paimtų matematiškai griežtą AR kadrą ir pritaikytų jam „fotorealistinį“ filtrą. Šis procesas suteikia švariam AR ištekliui grūdėtumą, apšvietimo tekstūrą ir sudėtingus triukšmo modelius, būdingus tikriems kamerų jutikliams.
Kuris duomenų tipas geriau tinka gestų atpažinimo mokymui erdviniuose skaičiavimuose?
Hibridinis derinys yra optimalus, tačiau pradėti nuo AR duomenų yra labai efektyvu. Atkuriant skaitmenines rankas, judančias tūkstančiais sąnarių konfigūracijų, skirtingų realaus pasaulio kambario fonų fone, galima išmokyti ausinių kameras sekti pirštų artikuliaciją daugybėje pozų, kurias tikram žmogui būtų sunku kartoti įrašant ciklus.
Nuosprendis
Rinkitės papildytosios realybės duomenis, kai jūsų projektui reikia didžiulių kiekių idealiai paženklintų mokymo pavyzdžių retiems kraštutiniams atvejams arba kai kuriate programinę įrangą, skirtą specialiai erdvinių skaičiavimų ekosistemoms. Pasikliaukite realiais kamerų duomenimis, kai jūsų sistema skirta chaotiškai, neribotai lauko aplinkai, kur subtilios aplinkos tekstūros ir jutiklių artefaktai lemia veikimo saugumą.