objektų aptikimasgilusis mokymasiskompiuterinis matymasmokymo strategijosdirbtinis intelektas
Etikečių priskyrimo strategijos ir fiksuotų etikečių susiejimas
Žymų priskyrimo strategijos dinamiškai nustato, kaip mokymo tikslai priskiriami prognozėms modelio mokymo metu, o fiksuotų žymų susiejimas naudoja statinius, iš anksto nustatytus priskyrimus. Šiuolaikiniai adaptyvūs metodai paprastai pranoksta standžias fiksuotas schemas, ypač tankiose prognozavimo užduotyse, tokiose kaip objektų aptikimas.
Akcentai
Adaptyvios strategijos, tokios kaip ATSS, pagerina mAP 2–3 %, palyginti su fiksuoto slenksčio metodais COCO.
Fiksuotas žemėlapių sudarymas ignoruoja ribines prognozes, o adaptyvūs metodai jas panaudoja kaip švelnius teigiamus aspektus.
Šiuolaikiniai detektoriai, įskaitant YOLOv8 ir DETR, iš esmės atsisakė fiksuoto etikečių atvaizdavimo.
Priskyrimo strategijos pasirinkimas gali būti toks pat svarbus kaip ir pagrindinės architektūros pasirinkimas.
Kas yra Etikečių priskyrimo strategijos?
Metodai, kurie nustato, kaip pagrindinės tiesos etiketės mokymo metu suderinamos su modelio prognozėmis, dažnai pritaikomi pagal prognozės kokybę.
Etikečių priskyrimo strategijos nusprendžia, kurios prognozės yra atsakingos už kuriuos pagrindinės tiesos objektus mokymo metu.
Adaptyvūs metodai, tokie kaip ATSS ir PAA, koreguoja priskyrimus pagal statistines prognozių savybes, o ne fiksuotas ribas.
Minkštų etikečių priskyrimo metodai, tokie kaip Gauso YOLO ir Varifokalinis praradimas, paskirsto teigiamus signalus kelioms prognozėms.
Šios strategijos yra labai svarbios inkarų pagrindu veikiančiuose ir be inkarų detektoriuose, kur yra neaiškumų tarp persidengiančių prognozių.
Tyrimai, atlikti tokiuose straipsniuose kaip „Židinio praradimas tankiam objektų aptikimui“, parodė, kad etikečių priskyrimas daro didelę įtaką modelio konvergencijai ir galutiniam tikslumui.
Kas yra Fiksuotas etikečių atvaizdavimas?
Statinis metodas, kai kiekvienai prognozės vietai arba inkarui priskiriama etiketė pagal iš anksto nustatytas taisykles, pvz., IoU slenksčius.
Fiksuoto žymėjimo susiejimas remiasi griežtomis ribomis, paprastai IoU reikšmėmis, tokiomis kaip 0,5 arba 0,7, kad prognozės būtų klasifikuojamos kaip teigiamos arba neigiamos.
Šis metodas buvo standartinis ankstyvuosiuose objektų detektoriuose, įskaitant „Faster R-CNN“, SSD ir „YOLOv2“.
Prognozės, kurios patenka tarp teigiamų ir neigiamų slenksčių, paprastai ignoruojamos kaip „neutralios“ imtys.
Susiejimas mokymo metu nesikeičia, tai reiškia, kad tas pats prognozavimo lizdas visada atitinka tą pačią etiketės sprendimo taisyklę.
Fiksuotas atvaizdavimas gali sukelti nestabilumą, kai duomenų rinkinyje yra skirtingo dydžio ar kraštinių santykio objektų.
Palyginimo lentelė
Funkcija
Etikečių priskyrimo strategijos
Fiksuotas etikečių atvaizdavimas
Prisitaikymas
Dinaminis, koreguojamas pagal prognozavimo statistiką
Paprastai lyginamuosiuose rodikliuose gaunamas didesnis mAP
Bazinis našumas, dažnai žemesnės lubos
Įgyvendinimo sudėtingumas
Sudėtingesnis, reikalauja kruopštaus derinimo
Paprasta ir nesudėtinga įgyvendinti
Naudojimas šiuolaikiniuose detektoriuose
Standartas YOLOv5, YOLOv8 ir naujausiose architektūrose
Dažniausiai keičiama moderniausiuose modeliuose
Išsamus palyginimas
Pagrindinis mechanizmas
Žymų priskyrimo strategijos veikia dinamiškai vertindamos prognozes, dažnai apskaičiuodamos statistiką, pvz., IoU verčių vidurkį ir standartinį nuokrypį, kad nustatytų adaptyvias ribas. Fiksuotas žymų priskyrimas, priešingai, taiko tas pačias užkoduotas taisykles viso mokymo metu, priimdamas sprendimus remdamasis vien geometriniu persidengimu, neatsižvelgdamas į tai, kaip gerai modelis iš tikrųjų mokosi. Šis esminis skirtumas lemia viską – nuo konvergavimo greičio iki galutinio tikslumo.
Našumas atliekant tankias prognozavimo užduotis
Objektų aptikimo etalonuose, tokiuose kaip COCO, adaptyvūs etikečių priskyrimo metodai nuolat pranoko fiksuoto atvaizdavimo metodus. Pavyzdžiui, ATSS parodė maždaug 2–3 % mAP pagerėjimą, palyginti su „RetinaNet“, tiesiog pakeitus teigiamų ir neigiamų verčių nustatymo būdą. Skirtumas dar labiau padidėja, kai dirbama su perpildytomis scenomis arba labai įvairaus dydžio objektais, kai fiksuotoms riboms sunku pritaikyti visą pasiskirstymą.
Mokymo dinamika ir konvergencija
Fiksuotas etikečių atvaizdavimas gali sukelti mokymo nestabilumą, nes „beveik pakankamai geros“ prognozės atmetamos kaip neigiamos ir nesuteikia jokio naudingo gradiento signalo. Adaptyvios strategijos tai sprendžia arba laikydamos šiuos ribinius atvejus švelniais teigiamais, arba koreguodamos slenksčius pagal dabartines modelio galimybes. Dėl to nuostolių kreivės tampa sklandesnės, o konvergencija dažnai greitesnė, ypač ankstyvosiose mokymo epochose.
Praktinio įgyvendinimo aspektai
Inžinerijos požiūriu, fiksuotų etikečių atvaizdavimas yra paprastesnis. Vieną kartą nustatant slenkstį, logika tampa aiški ir lengvai derinama. Adaptyvios strategijos reikalauja kruopštesnio įgyvendinimo, dažnai įtraukiant papildomus hiperparametrus, pvz., svarstomų kandidatų skaičių arba programuojamų etikečių paskirstymo pralaidumą. Tačiau papildomas sudėtingumas atsiperka daugumoje gamybinių scenarijų, kai aptikimo tikslumas tiesiogiai veikia tolesnes užduotis.
Evoliucija šiuolaikinėse architektūrose
Pastarųjų metų tendencija akivaizdžiai pasuko adaptyvaus priskyrimo link. YOLOv5 pristatė automatinį mokymąsi pagal inkarus, YOLOv8 pritaikė su užduotimi suderintą priskyrėją, o DETR stiliaus modeliai naudoja vengrų kalbos atitikimą individualiems poreikiams. Fiksuotas susiejimas vis dar naudojamas kai kuriose lengvesnėse arba senesnėse sistemose, tačiau jis vis dažniau laikomas baziniu, o ne konkurenciniu metodu siekiant pažangiausių rezultatų.
Privalumai ir trūkumai
Etikečių priskyrimo strategijos
Privalumai
+Didesnis galutinis tikslumas
+Geresnis mastelio svyravimų valdymas
+Sklandesnis mokymų konvergencija
+Naudoja dviprasmiškus pavyzdžius
Pasirinkta
−Sudėtingiau įgyvendinti
−Papildomi hiperparametrai
−Šiek tiek lėtesnis mokymas
−Sunkiau derinti
Fiksuotas etikečių atvaizdavimas
Privalumai
+Paprasta įgyvendinti
+Mažos skaičiavimo išlaidos
+Lengva suprasti
+Nuspėjamas elgesys
Pasirinkta
−Žemesnė tikslumo riba
−Ignoruoja naudingus pavyzdžius
−Nestabilus su įvairiais duomenimis
−Pasenęs SOTA darbams
Dažni klaidingi įsitikinimai
Mitas
Fiksuoto žymėjimo susiejimas visada yra greitesnis apmokymas nei adaptyvūs metodai.
Realybė
Nors fiksuotas atvaizdavimas reikalauja mažesnių skaičiavimo sąnaudų vienam žingsniui, adaptyvios strategijos dažnai konverguoja per mažiau epochų dėl geresnio gradiento signalo panaudojimo. Adaptyviųjų metodų atveju mokymo laikas nuo pradžios iki pabaigos gali būti panašus arba net trumpesnis.
Mitas
Didesnė IoU riba visada reiškia geresnę aptikimo kokybę.
Realybė
Per didelis IoU slenksčio pakėlimas pašalina daugumą teigiamų pavyzdžių, todėl duomenys neatitinka poreikio ir praleidžiami. Optimali slenksčio vertė priklauso nuo objekto tankio, mastelio kitimo ir konkrečios naudojamos architektūros.
Mitas
Etiketės priskyrimas svarbus tik inkariniams detektoriams.
Realybė
Netgi inkarų neturintys detektoriai, tokie kaip „CenterNet“ ir FCOS, remiasi etikečių priskyrimo sprendimais, ypač nustatant, kurie pagrindiniai taškai ar centriniai regionai atitinka kuriuos objektus. Ši koncepcija apima ir segmentavimą, ir pozos įvertinimą.
Mitas
Švelnus etikečių priskyrimas tėra išlyginimo triukas be jokios realios naudos.
Realybė
Švelnus priskyrimas iš esmės pakeičia optimizavimo aplinką, nes pateikia gradiento signalą iš pavyzdžių, kurie kitu atveju būtų ignoruojami. Tai pagerina savybių mokymąsi, ypač objektams, kurie yra iš dalies uždengti arba yra receptyviųjų laukų pakraščiuose.
Mitas
Pasirinkus etikečių priskyrimo strategiją, jos mokymo metu pakeisti nebegalėsite.
Realybė
Keli šiuolaikiniai metodai naudoja mokymo programos stiliaus užduotis, pradedant nuo leidžiamų slenksčių ankstyvajame mokymo etape ir palaipsniui jas griežtinant. Tai apjungia abiejų pasaulių privalumus ir, kaip įrodyta, pagerina galutinius rezultatus.
Dažnai užduodami klausimai
Kuo skiriasi žymėjimo priskyrimas ir praradimo funkcija objektų aptikime?
Žymės priskyrimas nustato, kurios prognozės atitinka kuriuos pagrindinės tiesos objektus ir ar jos traktuojamos kaip teigiamos, neigiamos ar ignoruojamos. Tada nuostolių funkcija apskaičiuoja baudą pagal šiuos priskyrimus. Priskyrimą galite įsivaizduoti kaip sprendimą „kas už ką atsakingas“, o nuostolių funkcija matuoja, „kokia neteisinga buvo ta atsakomybė“. Abi yra labai svarbios ir glaudžiai sąveikauja mokymo metu.
Kodėl YOLO atsisakė fiksuoto etikečių žemėlapių sudarymo?
Pradedant nuo YOLOv5, YOLO šeima pritaikė adaptyvų priskyrimą, nes fiksuoti IoU slenksčiai sunkiai susidorojo su įvairiais objektų dydžiais tokiuose duomenų rinkiniuose kaip COCO. Automatinio įtvirtinimo ir su užduotimi suderinto priskyrimo metodai dinamiškai parenka geriausias kiekvienos pagrindinės tiesos prognozes, todėl pastebimai padidėja tikslumas be didelių greičio sąnaudų.
Ar ATSS yra geresnis nei tradicinis IoU slenksčio nustatymas?
ATSS (adaptyvi mokymo imties atranka) paprastai pranoksta fiksuotas IoU slenksčius, apskaičiuodama statistiką kiekvieno objekto kandidatų prognozėms ir naudodama ją adaptyvioms slenksčiams nustatyti. Originaliame straipsnyje ATSS pasiekė apie 2,3 % didesnį AP COCO, palyginti su „RetinaNet“ su fiksuotais slenksčiais, neįvedant jokių papildomų hiperparametrų ar skaičiavimo pridėtinių sąnaudų išvados metu.
Ar galiu naudoti fiksuotų etikečių atvaizdavimą su detektoriais be inkarų?
Taip, fiksuotų etikečių atvaizdavimas gali būti taikomas detektoriams be inkarų naudojant atstumu arba centru pagrįstus kriterijus, o ne IoU. Pavyzdžiui, FCOS priskiria taškus pagrindinės tiesos langelio viduje kaip teigiamus, naudodamas fiksuotas erdvines taisykles. Tačiau net ir modeliai be inkarų naudoja adaptyvias priskyrimo strategijas, todėl dauguma šiuolaikinių įdiegimų peržengė grynai fiksuotų metodų ribas.
Kas yra „SimOTA“ ir kaip ji susijusi su etikečių priskyrimu?
„SimOTA“ yra adaptyvus etikečių priskyrimo metodas, pristatytas „YOLOX“, kuris priskyrimą formuluoja kaip optimalaus perdavimo problemą. Jis atsižvelgia tiek į prognozės kokybę (klasifikavimo patikimumą ir regresijos tikslumą), tiek į kiekvienos prognozės priskyrimo kiekvienam pagrindiniam teisingumui kainą. Tai užtikrina labiau subalansuotą mokymą ir buvo pritaikytas daugelyje vėlesnių detektorių.
Ar etikečių priskyrimas turi įtakos išvadų darymo greičiui?
Ne, etikečių priskyrimas veikia tik mokymo metu. Išvadų darymo metu modelis tiesiog pateikia prognozes be jokios priskyrimo logikos. Taigi mokymo metu galite naudoti sudėtingiausią priskyrimo strategiją, nedarant jokio poveikio diegimo greičiui, o tai yra viena iš priežasčių, kodėl adaptyvūs metodai tapo tokie populiarūs gamybinėse sistemose.
Kaip pasirinkti tarp fiksuotos ir programinės etiketės priskyrimo?
Griežtas priskyrimas (viena prognozė kiekvienai pagrindinei tiesai) gerai veikia, kai objektai yra gerai atskirti, o modelio architektūra yra stipri. Minkštas priskyrimas (kelios prognozės kiekvienai pagrindinei tiesai su svertinėmis etiketėmis) paprastai veikia geriau tankiose scenose arba mokant nuo nulio. Vengrų atitikimas, naudojamas DETR, yra griežto priskyrimo forma, kuri optimaliai išsprendžia priskyrimo problemą.
Ar yra etikečių priskyrimo strategijos segmentavimo užduotims?
Taip, segmentavimo modeliuose taip pat naudojamas etikečių priskyrimas, nors koncepcija šiek tiek skiriasi. Semantinėje segmentacijoje kiekvienas pikselis tiesiogiai gauna etiketę. Egzempliorių segmentacijoje priskyrimas nustato, kurie pikseliai priklauso kuriam egzemplioriui, dažnai naudojant tokius metodus kaip „Mask Scoring R-CNN“ arba langelį suvokiantys nuostoliai. Čia taip pat vis dažniau tiriamos adaptyvios strategijos.
Kokį vaidmenį židinio nuostolis atlieka priskiriant etiketę?
Židinio praradimas sprendžia klasės disbalansą sumažindamas lengvų neigiamų prognozių svorį nuostolių skaičiavimo metu, tačiau tai veikia kartu su etikečių priskyrimu. Net ir esant židinio praradimui, jei jūsų priskyrimo strategija ignoruoja daugumą prognozių kaip neigiamas, modelis vis tiek veiks sunkiai. Šiuolaikinės sistemos derina adaptyvų priskyrimą su židinio tipo nuostoliais, kad pasiektų geriausių rezultatų.
Ar etikečių priskyrimo strategijos ir toliau vystysis?
Beveik neabejotinai. Naujausi tyrimai nagrinėjo visapusiškai išmokstamą priskyrimą, transformatorių pagrindu veikiantį atitikimą ir netgi sustiprinto mokymosi priskyrimo metodus. Architektūroms toliau tobulėjant, priskyrimo strategijos greičiausiai taps sudėtingesnės ir gali būti mokomosi kartu su modeliu, o ne kuriamos rankiniu būdu.
Nuosprendis
Rinkitės adaptyvias etikečių priskyrimo strategijas, kai prioritetas yra tikslumas ir dirbate su moderniomis aptikimo užduotimis, ypač su įvairiais objektų pasiskirstymais. Fiksuotas etikečių susiejimas išlieka protingas pasirinkimas paprastiems projektams, švietimo tikslais arba išteklių ribotose aplinkose, kur įgyvendinimo paprastumas yra svarbesnis nei paskutinių kelių našumo procentų išspaudimas.