Galvenā skaitļošanas stila
Redzes transformatori apstrādā attēlus, sadalot tos ielāpos un ļaujot katram ielāpam pievērsties visiem pārējiem ielāpiem. Tas izveido globālu mijiedarbības modeli jau no paša pirmā slāņa. Stāvokļa telpas redzes modeļi tā vietā nodod informāciju caur strukturētu slēptu stāvokli, kas attīstās soli pa solim, tverot atkarības bez skaidras pāru salīdzināšanas.
Mērogojamība un efektivitāte
ViT modeļi mēdz kļūt dārgāki, palielinoties attēla izšķirtspējai, jo uzmanība slikti mērogojas ar vairāk marķieriem. Turpretī stāvokļa telpas modeļi ir izstrādāti, lai mērogotos elegantāk, padarot tos pievilcīgus īpaši augstas izšķirtspējas attēliem vai garām video secībām, kur efektivitātei ir nozīme.
Mācīšanās uzvedība un datu vajadzības
Redzes transformatoriem parasti ir nepieciešami lieli datu kopumi, lai pilnībā atbloķētu to veiktspēju, jo tiem trūkst spēcīgu iebūvētu induktīvo nobīdi. Stāvokļa telpas redzes modeļi ievieš spēcīgākus strukturālus pieņēmumus par secības dinamiku, kas var palīdzēt tiem efektīvāk mācīties noteiktos apstākļos, īpaši, ja datu ir ierobežoti.
Veiktspēja telpiskās izpratnes jomā
ViT izceļas ar sarežģītu globālu attiecību uztveršanu, jo katrs ielāps var tieši mijiedarboties ar visiem pārējiem. Stāvokļa telpas modeļi balstās uz saspiestu atmiņu, kas dažkārt var ierobežot detalizētu globālu spriešanu, bet bieži vien darbojas pārsteidzoši labi, pateicoties efektīvai informācijas izplatīšanai lielos attālumos.
Lietošana reālās pasaules sistēmās
Pateicoties briedumam un rīkiem, redzes transformatori dominē daudzos pašreizējos etalonos un ražošanas sistēmās. Tomēr stāvokļa telpas redzes modeļi (STM) piesaista uzmanību perifērijas ierīcēs, video apstrādē un lielas izšķirtspējas lietojumprogrammās, kur efektivitāte un ātrums ir kritiski ierobežojumi.