kompiuterinis matymasobjektų aptikimasvaizdų klasifikavimasgilusis mokymasisdirbtinis intelektasmašininis mokymasis

Kompiuterinės regos objektų aptikimo ir vaizdų klasifikavimo užduotys

Objektų aptikimas ir vaizdų klasifikavimas yra pagrindinės kompiuterinės regos užduotys, tačiau jų tikslai iš esmės skiriasi. Klasifikavimas priskiria visam vaizdui vieną kategoriją, o objektų aptikimas suranda ir identifikuoja kelis objektus scenoje. Pasirinkimas priklauso nuo to, ar jums reikia žinoti, kas yra vaizde, ar kur yra konkretūs elementai.

Akcentai

Objektų aptikimas užtikrina erdvinę lokalizaciją per ribojančius langelius, o klasifikavimas išveda tik vieną etiketę kiekvienam vaizdui.
Klasifikavimo modeliai yra žymiai greitesni ir reikalauja mažiau skaičiavimo galios nei aptikimo modeliai.
Aptikimui reikalingos brangios ribojančių langelių anotacijos, o klasifikavimui reikia tik vaizdo lygio etikečių.
Abi užduotys turi tokias pačias pagrindines architektūras kaip „ResNet“ magistralės, tačiau aptikimas prideda regiono prognozavimo galvutes lokalizacijai.

Kas yra Kompiuterinės regos objektų aptikimas?

Identifikuoja ir lokalizuoja kelis objektus paveikslėlyje naudodamas ribojančius langelius ir klasių žymas.

Objektų aptikimas derina klasifikavimą su lokalizavimu, numatydamas, kokie objektai yra ir kur jie atrodo pikselių koordinatėse.
Populiarios architektūros yra „YOLO“, „Faster R-CNN“, SSD ir DETR, kurių kiekviena skirtingai subalansuoja greitį ir tikslumą.
„Pascal VOC“ ir „COCO“ duomenų rinkiniai buvo pagrindiniai etalonai, o „COCO“ apima daugiau nei 330 000 vaizdų ir 2,5 milijono paženklintų egzempliorių.
Šiuolaikiniai detektoriai gali apdoroti vaizdo įrašą realiuoju laiku, o „YOLOv8“ ir „YOLOv9“ atitinkama įranga pasiekia didesnį nei 100 kadrų per sekundę išvadų greitį.
Taikymo sritys apima autonomines transporto priemones, stebėjimo sistemas, medicininį vaizdavimą, mažmeninės prekybos analizę ir žemės ūkio stebėseną.

Kas yra Vaizdų klasifikavimo užduotys?

Priskiria vieną etiketę arba kategoriją visam vaizdui pagal jo dominuojantį vaizdinį turinį.

Vaizdų klasifikavimas išveda vieną ar daugiau viso vaizdo etikečių, nenurodant, kur objektai yra erdvėje.
„ImageNet“ duomenų rinkinys, kuriame yra daugiau nei 14 milijonų paženklintų vaizdų 20 000 kategorijų, 2012 m. sukėlė gilaus mokymosi revoliuciją, kai „AlexNet“ laimėjo ILSVRC konkursą.
Pagrindinės architektūros apima „ResNet“, „VGG“, „Inception“, „EfficientNet“ ir „Vision Transformers“ (ViT).
Klasifikavimo modeliai paprastai veikia greičiau nei aptikimo modeliai, nes jiems reikia tik vieno perdavimo vienam vaizdui be regiono pasiūlymų.
Įprasti naudojimo atvejai apima turinio moderavimą, medicininę diagnozę rentgeno nuotraukomis, kokybės kontrolę gamyboje ir rūšių identifikavimą ekologijoje.

Palyginimo lentelė

Funkcija	Kompiuterinės regos objektų aptikimas	Vaizdų klasifikavimo užduotys
Pirminė išvestis	Ribojančios dėžutės su klasių etiketėmis ir patikimumo balais	Viena klasės etiketė visam vaizdui
Erdvinė informacija	Pateikia tikslią objektų vietą pagal koordinates	Nepateikta erdvinė ar padėties informacija
Objektų skaičius	Gali aptikti kelis objektus vienu metu	Nurodo tik dominuojantį subjektą
Skaičiavimo kaina	Didesnis dėl regioninių pasiūlymų ir kelių prognozių	Nuleiskite vienu perdavimu į priekį kiekvienam vaizdui
Modelio sudėtingumas	Sudėtingesnis su stuburo, kaklo ir galvos komponentais	Paprastesnė architektūra, orientuota į funkcijų išskyrimą
Tipinis tikslumo diapazonas	mAP 40-65 pagal COCO etaloną pažangiausiems modeliams	„ImageNet“ pirmaujančių modelių tikslumas – 85–91 %.
Mokymo duomenų reikalavimai	Reikalingos ribojančio langelio anotacijos, brangiau žymėti	Reikia tik paveikslėlių lygio etikečių, pigiau komentuoti
Išvadų greitis	Realaus laiko galimybė (30–100+ FPS) su optimizuotais modeliais	Labai greitas, dažnai daugiau nei 100 FPS net ir su kuklia įranga
Geriausias naudojimo atvejis	Scenos su keliais objektais, kuriuos reikia lokalizuoti	Vieno objekto nuotraukos, kurioms reikalingas kategorijos identifikavimas

Išsamus palyginimas

Pagrindinis tikslas ir rezultatas

Esminis skirtumas slypi tame, ką kiekviena užduotis siekia pasiekti. Vaizdų klasifikavimas atsako į klausimą „kas yra šiame paveikslėlyje?“, priskirdamas vieną ar daugiau etikečių visam vaizdui. Objektų aptikimas eina toliau, atsakydamas į klausimą „kas yra šiame paveikslėlyje ir kur tai tiksliai yra?“, naudodamas ribojančius langelius aplink kiekvieną aptiktą elementą. Jei įkeliate gatvės nuotrauką, klasifikatorius gali ją pažymėti kaip „miesto scena“, o detektorius atskirai nubrėžtų langelius aplink automobilius, pėsčiuosius, šviesoforus ir ženklus.

Architektūra ir modelių dizainas

Klasifikavimo modeliai paprastai vadovaujasi tiesmuku srautu: pagrindinis tinklas išskiria požymius, o klasifikatoriaus galvutė išveda tikimybes. Objektų aptikimo modeliai iš esmės yra sudėtingesni, paprastai susidedantys iš pagrindinio tinklo požymių išskyrimui, kaklelio požymių suliejimui ir galvutės, kuri prognozuoja ir klases, ir ribojančios dėžės koordinates. Dėl šio papildomo sudėtingumo aptikimo modeliams reikia daugiau parametrų ir skaičiavimo išteklių, kad būtų pasiektas panašus tikslumas atitinkamuose etalonuose.

Mokymo duomenys ir anotacijos

Vaizdų klasifikavimo duomenų rinkiniams reikia tik vaizdo lygio etikečių, todėl juos pigiau ir greičiau sukurti dideliu mastu. Objektų aptikimui reikalingos ribojančių langelių anotacijos kiekvienam objekto egzemplioriui – procesas, kuris gali užtrukti nuo 10 iki 100 kartų ilgiau vienam vaizdui, priklausomai nuo scenos sudėtingumo. Tokiems duomenų rinkiniams kaip COCO sukurti prireikė tūkstančių anotacijų valandų, o „ImageNet“ klasifikavimo etiketės buvo gana greitai gautos pasitelkus tokias paslaugas kaip „Amazon Mechanical Turk“.

Našumo ir greičio kompromisai

Klasifikavimo modeliai paprastai veikia greičiau ir pasiekia didesnį tikslumą savo etalonuose, nes užduotis yra paprastesnė. Pažangiausi klasifikatoriai „ImageNet“ sistemoje viršija 91 % geriausiųjų tikslumą, o geriausių objektų detektoriai COCO sistemoje pasiekia apie 63–65 mAP. Tačiau aptikimo modeliai padarė didelę pažangą greičio srityje, o vieno etapo detektoriai, tokie kaip YOLO, užpildo šią spragą ir leidžia taikyti realaus laiko programas. Pasirinkimas dažnai priklauso nuo to, ar jums reikia erdvinio tikslumo, ar maksimalaus pralaidumo.

Realaus pasaulio programos

Klasifikavimas praverčia tais atvejais, kai vieta nesvarbi, pavyzdžiui, filtruojant netinkamą turinį, diagnozuojant ligas pagal medicininius tyrimus arba rūšiuojant produktus pagal kategorijas. Objektų aptikimas yra būtinas, kai svarbi vieta, įskaitant autonominį vairavimą (pėsčiųjų ir kitų transporto priemonių identifikavimą), mažmeninės prekybos atsargų valdymą, laukinės gamtos stebėjimą ir robotų manipuliavimą. Daugelyje gamybos sistemų iš tikrųjų derinami abu šie metodai, naudojant klasifikavimą, kad būtų galima greitai filtruoti vaizdus prieš pradedant atitinkamų vaizdų aptikimą.

Privalumai ir trūkumai

Kompiuterinės regos objektų aptikimas

Privalumai

+ Pateikia objektų vietas
+ Tvarko kelis objektus
+ Turtingas erdvinis išvestis
+ Įgalina naudojimo atvejus realiuoju laiku
+ Universalus pritaikymas

Pasirinkta

− Didesnės skaičiavimo išlaidos
− Reikalingos brangios anotacijos
− Sudėtingiau treniruotis
− Mažesnis etalono tikslumas

Vaizdų klasifikavimo užduotys

Privalumai

+ Greitas išvadų darymo greitis
+ Paprastesnė architektūra
+ Pigiau komentuoti
+ Didelis etalono tikslumas
+ Lengva dislokuoti

Pasirinkta

− Nėra erdvinės informacijos
− Vienos etiketės apribojimas
− Praleidžia kelis objektus
− Ribotas scenos supratimas

Dažni klaidingi įsitikinimai

Mitas

Objektų aptikimas yra tik klasifikavimas su papildomais žingsniais.

Realybė

Nors klasifikavimas yra aptikimo komponentas, objektų aptikimas prideda lokalizacijos šaką, kuri numato koordinates, todėl tai iš esmės kitokia užduotis. Architektūros, nuostolių funkcijos ir vertinimo metrikos labai skiriasi. Aptikimo modeliai turi apdoroti kintamą objektų skaičių viename vaizde, su kuo klasifikavimo metu niekada nesusiduriama.

Mitas

Didesnis klasifikavimo tikslumas reiškia geresnį aptikimo našumą.

Realybė

Modelis, kuris puikiai atlieka „ImageNet“ klasifikaciją, nebūtinai gerai atlieka objektų aptikimo funkcijas. Aptikimui reikalingas, kad magistralė išsaugotų erdvinę informaciją, o ne suskleistų ją į vieną vektorių, todėl egzistuoja specialiai aptikimui skirtos architektūros ir mokymo strategijos.

Mitas

Klasifikatorių galite lengvai paversti detektoriumi.

Realybė

Nors tokios technikos kaip „Grad-CAM“ gali paryškinti regionus, į kuriuos klasifikatorius sutelkia dėmesį, šie šilumos žemėlapiai nėra tikslūs ribojantys langeliai. Norint sukurti tikrą detektorių, reikia iš naujo apmokyti su ribojančių langelių anotacijomis ir aptikimui pritaikyta architektūra. Šios dvi užduotys nėra tarpusavyje pakeičiamos.

Mitas

Objektų aptikimas realaus pasaulio užduotyse visada pranoksta klasifikavimą.

Realybė

Aptikimas daugeliui programų yra pernelyg sudėtingas. Jei reikia tik žinoti, ar paveikslėlyje yra katė, pilnas aptikimo modelis švaisto išteklius. Klasifikavimas išlieka geresniu pasirinkimu, kai vieta nesvarbi, o aptikimo naudojimas be reikalo padidina delsą ir infrastruktūros sąnaudas.

Mitas

Šiuolaikiniai objektų detektoriai puikiai veikia bet kokioje aplinkoje.

Realybė

Aptikimo modeliams sunku susidoroti su uždengimu, mažais objektais, neįprastais kampais ir pasiskirstymo poslinkiu. Pažangiausi modeliai vis dar neveikia kraštutiniais atvejais, kuriuos žmonės tvarko lengvai, todėl saugai svarbioms programoms, tokioms kaip autonominis vairavimas, reikalingas išsamus patvirtinimas ir perteklius.

Dažnai užduodami klausimai

Kuo skiriasi objektų aptikimas ir vaizdų klasifikavimas?

Vaizdų klasifikavimas priskiria vieną žymę visam vaizdui, atsakydamas į klausimą „kas tai?“. Objektų aptikimas apima ir objektų paiešką su ribojančiais langeliais, atsakydamas į klausimą „kas tai yra ir kur tai yra?“. Pagrindinis skirtumas yra erdvinė informacija: klasifikavimas ignoruoja objektų buvimo vietą, o aptikimas pateikia tikslias kiekvieno identifikuoto elemento koordinates.

Kurią užduotį dirbtiniam intelektui atlikti sunkiau?

Objektų aptikimas paprastai laikomas sudėtingesniu, nes jam reikia vienu metu spręsti ir klasifikavimo, ir lokalizavimo klausimus. Modelis turi numatyti kintamą objektų skaičių, apdoroti persidengiančias dėžutes ir išlaikyti erdvinį tikslumą. Klasifikavimui tereikia nustatyti dominuojantį turinį, todėl tai yra paprastesnė mokymosi problema, kurios standartiniuose etalonuose pasiekiamas didesnis tikslumas.

Ar galite naudoti objektų aptikimą vaizdams klasifikuoti?

Taip, bet tai neefektyvu. Galite paleisti objektų detektorių ir naudoti aptiktas klases kaip klasifikavimo žymas, bet tai eikvoja skaičiavimus, nes aptikimas yra brangesnis. Specialus klasifikatorius bus greitesnis ir tikslesnis grynai klasifikavimo užduotims. Aptikimas vertas papildomų išlaidų tik tada, kai jums iš tikrųjų reikia ribojančių langelių vietų.

Kokie duomenų rinkiniai geriausiai tinka kiekvienos užduoties mokymui?

Klasifikavimui auksiniu standartu išlieka „ImageNet“, turintis 14 milijonų vaizdų tūkstančiuose kategorijų. CIFAR-10 ir CIFAR-100 yra populiarūs mažesnio masto eksperimentams. Objektų aptikimui plačiausiai naudojamas etalonas yra COCO (Common Objects in Context), turintis 330 000 vaizdų ir 80 objektų kategorijų. „Pascal VOC“ yra dar vienas klasikinis duomenų rinkinys, dažnai naudojamas mokymuisi ir prototipų kūrimui.

Nuo kokių modelių turėtų pradėti pradedantieji?

Klasifikavimui pradėkite nuo „ResNet-50“ arba „EfficientNet-B0“, kurie pasižymi geru tikslumo ir sudėtingumo santykiu ir išsamia dokumentacija. Objektų aptikimui YOLOv5 arba YOLOv8 yra patogūs pradedantiesiems, nes turi paprastas API, aktyvias bendruomenes ir iš anksto apmokytus svorius. Greitesnis R-CNN yra tikslesnis, bet naujokams jį sunkiau konfigūruoti.

Kiek mokymo duomenų reikia kiekvienai užduočiai atlikti?

Klasifikavimas gali veikti su šimtais ar keliais tūkstančiais vaizdų kiekvienoje klasėje, naudojant perkėlimo mokymąsi iš iš anksto apmokytų modelių. Objektų aptikimui paprastai reikia daugiau duomenų, dažnai mažiausiai kelių tūkstančių anotuotų vaizdų, nes modelis turi išmokti atpažinti objektus ir tiksliai numatyti ribojančias dėžutes. Kelių kadrų aptikimas išlieka aktyvia tyrimų sritimi.

Ar YOLO yra klasifikavimo ar aptikimo modelis?

YOLO (angl. You Only Look Once) yra objektų aptikimo modelis, o ne klasifikatorius. Jis vienu metu numato ribojančius langelius ir klasių tikimybes per vieną bandymą, todėl tai yra vienas greičiausių realaus laiko detektorių. Yra keli YOLO architektūrų klasifikavimo variantai, tačiau originalios ir populiariausios versijos yra skirtos aptikimui.

Kokios aparatinės įrangos reikia norint paleisti šiuos modelius?

Klasifikavimo modeliai gali patogiai veikti centriniuose procesoriuose išvadų darymui, net mobilieji įrenginiai juos efektyviai tvarko. Objektų aptikimui reikia daugiau išteklių, ypač realaus laiko programoms. Abiejų užduočių mokymui rekomenduojamas modernus GPU, tačiau optimizuotų detektorių, tokių kaip YOLOv8-nano, išvadų darymas gali veikti ir periferiniuose įrenginiuose, įskaitant „Raspberry Pi“ ir mobiliuosius telefonus.

Kaip vertinate modelio našumą kiekvienai užduočiai?

Klasifikavimui naudojami tokie rodikliai kaip 1 geriausio tikslumas, 5 geriausio tikslumas, preciziškumas, atkūrimas ir F1 balas. Objektų aptikimui naudojamas vidutinis tikslumas (mAP), apskaičiuotas esant įvairioms IoU riboms, pvz., mAP@0,5 arba mAP@0,5:0,95 (COCO rodiklis). Aptikimo vertinimas yra sudėtingesnis, nes jame turi būti atsižvelgta ir į klasifikavimo teisingumą, ir į lokalizacijos tikslumą.

Ar transformatoriai gali būti naudojami abiem užduotims?

Taip, regėjimo transformatoriai (ViT) ir jų variantai gerai veikia tiek klasifikavimui, tiek aptikimui. DETR (aptikimo transformatorius) buvo novatoriškas modelis, kuriame transformatoriai buvo taikomi objektų aptikimui nuo pradžios iki galo. Tokie modeliai kaip „Swin Transformer“ yra abiejų užduočių pagrindas, dažnai pasiekiant pažangiausius rezultatus, kai yra pakankamai mokymo duomenų.

Nuosprendis

Rinkitės vaizdų klasifikavimą, kai reikia greitai suskirstyti vaizdus į kategorijas pagal jų bendrą turinį ir nereikia erdvinės informacijos, ypač ribotų išteklių aplinkoje. Rinkitės objektų aptikimą, kai jūsų programai reikia žinoti, kokie objektai yra ir kur jie atrodo, priimdami didesnes skaičiavimo sąnaudas kaip būtiną kompromisą siekiant sodresnio išvesties.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.