dirbtinis intelektasmašininis mokymasisnatūralios kalbos apdorojimaskompiuterinis matymasgilusis mokymasismultimodalinis dirbtinis intelektas

Vizualiniai klausimų atsakymai ir tekstiniai atsakymai

Vizualinių klausimų atsakymų (VQA) metodas interpretuoja vaizdus, kad atsakytų į klausimus apie vaizdinį turinį, o tekstinių klausimų atsakymų (Text QA) metodas orientuotas į atsakymų ištraukimą arba generavimą iš rašytinių ištraukų. Abu metodai priskiriami natūralios kalbos apdorojimui, tačiau iš esmės skiriasi įvesties būdais ir dirbtinio intelekto metodais, kuriais remiasi.

Akcentai

VQA apdoroja ir vaizdus, ir tekstą, o teksto QA dirba tik su rašytine kalba
VQA reikalauja multimodalinės architektūros, apjungiančios regėjimo ir kalbos modelius.
Teksto kokybės užtikrinimas (QA) turi ilgesnę tyrimų istoriją, siekiančią septintąjį dešimtmetį.
Nuo 2017 m. abi sritys buvo transformuotos transformatorių pagrindu sukurtomis architektūromis.

Kas yra Vizualinis klausimų atsakymas?

Dirbtinio intelekto užduotis, kai modeliai analizuoja vaizdus ir atsako į natūralios kalbos klausimus apie jų vaizdinį turinį.

VQA sujungia kompiuterinę regą ir natūralios kalbos apdorojimą, kad vienu metu suprastų ir vaizdus, ir tekstą
2015 m. išleistame VQA duomenų rinkinyje yra daugiau nei 200 000 vaizdų su daugiau nei 1,1 milijono klausimų ir atsakymų.
Šiuolaikinės VQA sistemos paprastai naudoja transformatorines architektūras arba didelius multimodalinius modelius, tokius kaip GPT-4V ir LLaVA.
VQA turi realių pritaikymų prieinamumo įrankiuose silpnaregiams, medicininės vaizdų analizės ir autonominių sistemų srityse.
Standartinių VQA etaloninių testų našumas gerokai pagerėjo – geriausi modeliai dabar viršija 80 % tikslumą VQA v2 teste.

Kas yra Atsakymai į tekstinius klausimus?

Dirbtinio intelekto užduotis, kai modeliai skaito ir supranta rašytines ištraukas, kad atsakytų į klausimus, pagrįstus tekstine informacija.

Teksto kokybės užtikrinimas (QA) įsišaknijęs ankstyvuosiuose NLP tyrimuose, vykusiuose septintajame ir aštuntajame dešimtmečiuose, naudojant tokias sistemas kaip BASEBALL ir LUNAR.
2016 m. išleistas Stanfordo klausimų ir atsakymų duomenų rinkinys (SQuAD) tapo pamatiniu etalonu, kuriame yra daugiau nei 100 000 klausimų ir atsakymų porų.
Šiuolaikinės teksto kokybės užtikrinimo sistemos naudoja didelius kalbos modelius, tokius kaip BERT, RoBERTa ir GPT variantus, kad pasiektų žmogaus lygio našumą.
Teksto kokybės užtikrinimas suteikia galimybę naudotis paieškos sistemomis, virtualiais asistentais, tokiais kaip „Siri“ ir „Alexa“, bei klientų aptarnavimo pokalbių robotais.
Išgaunamoji kokybės užtikrinimo sistema (QA) ištraukia atsakymus tiesiai iš šaltinio teksto, o abstrakti QA generuoja naujus atsakymus, naudodama ištrauką kaip kontekstą.

Palyginimo lentelė

Funkcija	Vizualinis klausimų atsakymas	Atsakymai į tekstinius klausimus
Įvesties būdas	Vaizdai, susieti su tekstiniais klausimais	Teksto ištraukos suporuotos su tekstiniais klausimais
Pagrindinės dirbtinio intelekto technikos	Kompiuterinė rega, multimodaliniai transformatoriai, regos ir kalbos modeliai	Natūralios kalbos apdorojimas, transformatorių modeliai, informacijos paieška
Tipinės modelių architektūros	ViLBERT, LLaVA, GPT-4V, BLIP-2, Flamingo	BERT, RoBERTa, T5, GPT, paieškos ir papildymo sistemos
Pagrindiniai lyginamieji rodikliai	VQA v2, GQA, OK-VQA, TextVQA	SQUAD, natūralūs klausimai, TriviaQA, MS MARCO
Pagrindiniai iššūkiai	Vizualinis įžeminimas, OCR vaizduose, erdvinis mąstymas, dviprasmiškų vaizdinių nuorodų valdymas	Skaitymo supratimas, atsakymai į neatsakomus klausimus, kelių etapų samprotavimas, ilgalaikis konteksto supratimas
Duomenų reikalavimai	Vaizdo-klausimo-atsakymo tripletai, kuriems reikalingos ir vaizdinės, ir tekstinės anotacijos	Klausimų ir atsakymų poros, pagrįstos dokumentais, kurioms dažnai reikia eksperto atliktų anotacijų
Skaičiavimo sudėtingumas	Didesnis dėl to, kad vienu metu apdorojami ir vaizdiniai, ir tekstiniai duomenys.	Paprastai žemesnis, orientuotas į teksto tokenizavimą ir transformatoriaus dėmesį
Realaus pasaulio programos	Pagalbinės technologijos akliesiems, vaizdų pagrindu sukurta paieška, medicininė diagnostika, stebėjimas	Paieškos sistemos, virtualūs asistentai, edukaciniai įrankiai, teisinių dokumentų analizė
Istorinė raida	Kaip atskira sritis iškilo apie 2014–2015 m., išaugus gilaus mokymosi (angl. deep learning) technologijoms.	Tobulėjo dešimtmečius, o po transformatorių revoliucijos 2017 m. pasiekta didelė pažanga

Išsamus palyginimas

Įvesties apdorojimas ir būdai

Svarbiausias šių dviejų užduočių skirtumas yra tai, ką jos apdoroja. Vizualinių klausimų atsakymų funkcija reikalauja, kad modeliai interpretuotų pikselių duomenis iš vaizdų kartu su tekstiniais klausimais, o tam reikalingi sudėtingi vaizdo kodavimo įrenginiai, galintys išskirti prasmingas ypatybes iš vaizdinio turinio. Tekstinių klausimų atsakymų funkcija, priešingai, veikia tik su rašytine kalba, leisdama modeliams sutelkti savo skaičiavimo išteklius į kalbinį supratimą, o ne skaidyti dėmesį tarp dviejų labai skirtingų duomenų tipų.

Modelio architektūra ir sudėtingumas

VQA sistemos paprastai sujungia vaizdo kodavimo įrenginį (pvz., CNN arba vaizdo transformatorių) su kalbos modeliu, suliedamos šiuos atvaizdavimus per kryžminio dėmesio arba projekcijos sluoksnius. Ši multimodalinė architektūra padidina sudėtingumą. Teksto kokybės užtikrinimo modeliai gali remtis vien kalbos transformatoriais, nereikalaujant vaizdo apdorojimo komponentų, todėl juos paprastai paprasčiau apmokyti ir diegti, nors jiems vis tiek reikia didelių skaičiavimo išteklių didelio masto kalbos supratimui.

Reikalingi samprotavimo gebėjimai

Teksto kokybės užtikrinimas (VQA) dažnai reikalauja sudėtingo samprotavimo ilgose ištraukose, įskaitant kelių šuolių išvadų darymą, kai atsakymams reikia derinti informaciją iš kelių sakinių ar dokumentų. VQA pateikia papildomų samprotavimo iššūkių, tokių kaip erdvinis supratimas (kur yra objektai), skaičiavimas (kiek elementų pasirodo) ir regimieji sveiko proto įgūdžiai (kas paprastai vyksta scenoje). Abi užduotys reikalauja žinių apie pasaulį, tačiau VQA turi pagrįsti šias žinias vaizdiniais įrodymais.

Benchmark našumas ir pažanga

Teksto kokybės užtikrinimas (QA) padarė didelę pažangą – modeliai dabar atitinka arba viršija žmogaus rezultatus tokiuose lyginamuosiuose testuose kaip SQuAD 2.0. VQA taip pat gerokai pažengė į priekį, nors ši sritis nuolat susiduria su iššūkiais, susijusiais su klausimais, kuriems reikalingos išorinės žinios, be to, kas matoma paveikslėlyje. OK-VQA įvedimas išryškino šią spragą ir paskatino tyrėjus rinktis labiau žiniomis pagrįstus vizualinio samprotavimo metodus.

Praktinis pritaikymas

Teksto kokybės užtikrinimas (VQA) dominuoja informacijos paieškos scenarijuose, naudodamasis viskuo – nuo „Google“ paieškos siūlomų ištraukų iki įmonių žinių bazių. VQA geriausiai pritaikomas ten, kur vizualinis kontekstas yra būtinas, pavyzdžiui, padedant silpnaregiams suprasti aplinką, analizuojant medicininius skenavimus arba įgalinant robotus sąveikauti su aplinka remiantis vizualinėmis užklausomis. Abi technologijos vis labiau susilieja į daugiarūšius dirbtinio intelekto asistentus, kurie gali sklandžiai apdoroti ir tekstą, ir vaizdus.

Privalumai ir trūkumai

Vizualinis klausimų atsakymas

Privalumai

+ Apdoroja daugiarūšius įvestis
+ Įgalina pritaikymo neįgaliesiems įrankius
+ Raiškios realaus pasaulio programos
+ Apjungia regėjimą ir kalbą – dirbtinis intelektas

Pasirinkta

− Didesnės skaičiavimo išlaidos
− Sudėtingesnės architektūros
− Riboti mokymo duomenys
− Sunkiau įvertinti tikslumą

Atsakymai į tekstinius klausimus

Privalumai

+ brandžios technologijos
+ Platūs etalonai prieinami
+ Mažesni skaičiavimo poreikiai
+ Platus pritaikymas

Pasirinkta

− Nepavyksta apdoroti vaizdinio turinio
− Kovoja su dviprasmybe
− Gali haliucinuoti atsakymai
− Reikalingi kokybiški pirminiai dokumentai

Dažni klaidingi įsitikinimai

Mitas

VQA modeliai gali iš tikrųjų „matyti“ ir suprasti vaizdus taip, kaip tai daro žmonės.

Realybė

VQA sistemos apdoroja vaizdus kaip skaitmeninius išraiškinius ir mokosi statistinių modelių, užuot pasiekusios tikrą vaizdinį supratimą. Jos gali neatsakyti į klausimus, kuriems reikalingas sveikas protas, arba kai vaizdiniai elementai yra dviprasmiški, net jei teisingas atsakymas žmogui atrodo akivaizdus.

Mitas

Teksto kokybės užtikrinimo sistemos visada pateikia tikslius, faktinius atsakymus.

Realybė

Net ir pažangiausi kalbos modeliai gali generuoti tikėtinai skambančius, bet neteisingus atsakymus – šis reiškinys vadinamas haliucinacija. Teksto kokybės užtikrinimo sistemoms taip pat gali kilti sunkumų atsakant į klausimus, kuriems reikalinga informacija, kurios nėra jų mokymo duomenyse ar šaltinio dokumentuose, o jų našumas labai skiriasi priklausomai nuo sričių ir klausimų tipų.

Mitas

VQA yra tiesiog vaizdų klasifikavimas su papildomais žingsniais.

Realybė

VQA reikalauja daug sudėtingesnių galimybių nei klasifikavimas. Modeliai turi suprasti erdvinius ryšius, skaičiuoti objektus, skaityti tekstą vaizduose, interpretuoti scenas kontekste ir samprotauti apie vaizdinius elementus, susijusius su natūralios kalbos užklausomis. Dėl to tai yra žymiai sudėtingesnė problema nei paprastas vaizdų žymėjimas.

Mitas

Teksto kokybės užtikrinimas taps nebeaktualus, nes dirbtinis intelektas pereis prie multimodalinių sistemų.

Realybė

Teksto kokybės užtikrinimas išlieka esminis net ir augant multimodaliniam dirbtiniam intelektui. Didžioji dalis realaus pasaulio informacijos vis dar egzistuoja teksto formatu, o gryno teksto sistemos dažnai pranoksta multimodalinius modelius atliekant užduotis, kuriose naudojamas tik tekstas, ir reikalauja mažiau skaičiavimo išteklių. Multimodalinės sistemos paprastai remiasi teksto kokybės užtikrinimo galimybėmis, o ne jas pakeičia.

Mitas

Tiek VQA, tiek teksto QA reikalauja tokio paties tipo ir kiekio mokymo duomenų.

Realybė

VQA reikalauja brangių anotuotų duomenų rinkinių, jungiančių vaizdus su klausimais ir atsakymais, dažnai pasitelkiant minios darbuotojus, kad būtų sugeneruoti įvairūs klausimai apie vaizdinį turinį. Teksto kokybės užtikrinimas gali panaudoti esamus dokumentus ir ištraukas, nors aukštos kokybės klausimų ir atsakymų porų kūrimas vis tiek reikalauja didelių žmogiškųjų anotacijų pastangų.

Dažnai užduodami klausimai

Kuo pagrindinis skirtumas tarp VQA ir tekstinės QA?

Pagrindinis skirtumas yra įvesties modalumas. Vizualinių klausimų atsakymų sistema apdoroja vaizdus kartu su tekstiniais klausimais, todėl modeliams reikia suprasti vaizdinį turinį. Tekstinių klausimų atsakymų sistema veikia tik su rašytinėmis ištraukomis ir klausimais, daugiausia dėmesio skirdama kalbiniam supratimui. Šis esminis skirtumas formuoja kiekvienos srities architektūras, mokymo duomenis ir taikymą.

Kas dirbtiniam intelektui sunkiau išspręsti: vaizdo kokybės užtikrinimą ar teksto kokybės užtikrinimą?

Abu kelia unikalių iššūkių, tačiau VQA paprastai laikoma sunkesne, nes modeliai turi vienu metu apdoroti ir integruoti du labai skirtingus duomenų tipus. Teksto kokybės užtikrinimas pasiekė žmogaus lygio našumą keliuose lyginamuosiuose testuose, o VQA vis dar sunkiai susidoroja su klausimais, kuriems reikia išorinių žinių arba sudėtingo vizualinio samprotavimo, neapsiribojančio paprastu objektų atpažinimu.

Ar šiuolaikinės dirbtinio intelekto sistemos gali atlikti ir vaizdo kokybės patikrinimą, ir teksto kokybės patikrinimą?

Taip, šiuolaikiniai multimodaliniai didelių kalbų modeliai, tokie kaip GPT-4V, Gemini ir Claude, gali atlikti abi užduotis vienoje sistemoje. Šie suvienodinti modeliai gali atsakyti į klausimus apie vaizdus, teksto ištraukas arba abiejų derinius. Tačiau specializuotos sistemos dažnai pranoksta bendrosios paskirties modelius pagal konkrečius kiekvienos srities lyginamuosius rodiklius.

Kokie yra dažniausiai VQA panaudojimo būdai realiame pasaulyje?

VQA suteikia galimybę naudoti pagalbines technologijas silpnaregiams, leisdama tokioms programoms kaip „Seeing AI“ ir „Be My Eyes“ aprašyti vaizdinius vaizdus. Kitos programos apima medicininių vaizdų analizę, kai gydytojai pateikia užklausas skenuotų duomenų formatu, edukacinius įrankius, kurie atsako į studentų klausimus apie diagramas, ir turinio moderavimo sistemas, kurios žymi netinkamus vaizdus pagal tekstinius užklausimus.

Kiek tikslios dabartinės teksto kokybės užtikrinimo sistemos?

„Top Text“ kokybės užtikrinimo sistemos dabar pasiekia daugiau nei 90 % tikslumą, vertinant standartinius testus, tokius kaip „SQuAD 2.0“, dažnai prilygstančias arba net viršijančias žmogaus našumą atliekant išgavimo užduotis. Tačiau tikslumas labai skiriasi priklausomai nuo srities, o specializuotos sritys, tokios kaip teisiniai ar medicininiai tekstai, kelia didesnių iššūkių. Abstrakčios kokybės užtikrinimo sistemos, kurios generuoja atsakymus, o ne juos išgauna, paprastai pasižymi mažesniu tikslumu ir didesniu haliucinacijų dažniu.

Kokie duomenų rinkiniai naudojami VQA modeliams apmokyti?

Populiarūs VQA duomenų rinkiniai apima VQA v2 su daugiau nei 1,1 milijono klausimų ir atsakymų porų, apimančių daugiau nei 200 000 vaizdų, GQA, kuri orientuota į scenų grafikų kompozicijos klausimus, OK-VQA, kuriai reikia išorinių žinių, ir TextVQA, kuri specialiai testuoja teksto skaitymą vaizduose. Šie duomenų rinkiniai suteikia pagrindą šiuolaikinių vizualinių klausimų ir atsakymų sistemų mokymui ir vertinimui.

Ar VQA modeliams reikia atlikti vaizdų OCR?

Daugeliui VQA klausimų reikia skaityti vaizduose matomą tekstą, pvz., ženkluose, etiketėse ar dokumentuose. Tokie modeliai, kaip „TextVQA“ lyginamajame teste išbandyti, turi turėti OCR galimybes arba naudoti kompleksines architektūras, kurios gali atpažinti tekstą vaizduose. Tai sukuria dar vieną sudėtingumo sluoksnį, viršijantį pagrindinį vizualinį supratimą.

Kaip transformatoriaus architektūra paveikė abu laukus?

„Transformers“ po jų pristatymo 2017 m. sukėlė revoliuciją tiek VQA, tiek teksto kokybės užtikrinimo sistemose. Teksto kokybės užtikrinimo srityje tokie modeliai kaip BERT ir RoBERTa pasiekė proveržio našumą, iš anksto apmokydami didelius teksto korpusus. VQA srityje vaizdo ir kalbos transformatoriai, tokie kaip ViLBERT ir BLIP, leido atlikti sudėtingesnį vaizdinės ir tekstinės informacijos suliejimą, todėl atsirado dabartinė galingų multimodalinių modelių karta.

Ar teksto kokybės užtikrinimo sistemos gali apdoroti klausimus apie dokumentus, kurių niekada nematė?

Šiuolaikinės teksto kokybės užtikrinimo sistemos gali atsakyti į klausimus apie naujus dokumentus, naudodamos paieškos papildytos generacijos (RAG) metodus. Šios sistemos pirmiausia suranda atitinkamas ištraukas iš dokumentų rinkinio, o tada, naudodamos kalbos modelius, sugeneruoja atsakymus pagal gautą kontekstą. Tai leidžia joms tvarkyti klausimus apie atsitiktinius dokumentus be pakartotinio mokymo, nors tikslumas priklauso nuo paieškos kokybės.

Kokių įgūdžių reikia dirbant su VQA ir teksto kokybės užtikrinimo tyrimais?

Teksto kokybės užtikrinimo (QA) tyrimams pirmiausia reikalingos natūralios kalbos apdorojimo, lingvistikos ir transformatorių architektūrų žinios. VQA tyrimams taip pat reikalingos kompiuterinės regos, vaizdų apdorojimo ir multimodalinio mokymosi metodų žinios. Abiejose srityse naudojami tvirti mašininio mokymosi pagrindai, tačiau VQA tyrėjams paprastai reikia platesnės patirties, apimančios kelias dirbtinio intelekto posritis.

Nuosprendis

Rinkitės vizualinius klausimų atsakymus, kai jūsų programai reikia suprasti vaizdus, vaizdo įrašų kadrus ar vaizdinius dokumentus, kur vien teksto nepakanka. Tekstiniai klausimų atsakymai išlieka geresniu pasirinkimu dokumentų analizei, paieškos sistemoms ir scenarijams, kai informacija daugiausia pateikiama rašytine forma. Šiuolaikinės dirbtinio intelekto sistemos vis dažniau derina abi galimybes, todėl praktiškiausias būdas dažnai apima multimodalinių modelių, kurie apdoroja ir vaizdinę, ir tekstinę įvestis, diegimą.

Susiję palyginimai

„DeepSeek V4“ ir „GPT-4“ klasės modeliai

„DeepSeek V4“ yra kylantis atvirojo svorio didelių kalbų modelis, sukurtas Kinijos dirbtinio intelekto laboratorijoje, o GPT-4 klasės modeliai nurodo „OpenAI“ flagmanines uždarojo kodo sistemas. Šiame palyginime nagrinėjama jų architektūra, galimybės, kainos, prieinamumas ir našumas realiame pasaulyje, siekiant padėti kūrėjams ir įmonėms išmintingai pasirinkti.

„Google“ paieška ir žinių grafiko paieška

„Google“ paieška yra plataus masto žiniatinklio indeksavimo variklis, kurį dauguma žmonių naudoja kasdien, o „Knowledge Graph Search“ yra „Google“ struktūrizuotų objektų duomenų bazė, kurioje pateikiami tiesioginiai atsakymai ir informacijos skydeliai. Supratimas, kuo jie skiriasi, padeda paaiškinti, kodėl kai kurios užklausos pateikia išsamius faktus, o kitos – tradicines mėlynas nuorodas.

„Google“ paieškos algoritmas ir supaprastinti klasės modeliai

„Google“ paieškos algoritmas reitinguoja milijardus tinklalapių, naudodamas mašininį mokymąsi ir šimtus signalų, o supaprastinti klasių modeliai perteikia dirbtinio intelekto koncepcijas į lengvai mokomas, prieinamas sistemas. Viena sistema veikia planetos mastu gamyboje; kita tarnauja kaip pedagoginis tiltas mokiniams, mokantis, kaip iš tikrųjų veikia dirbtinis intelektas.

„Vienas su vienu“ atitikimas aptikimo ir daugelio su vienu atitikimo metodų srityse

„Vienas su vienu“ atitikimo metodas kiekvienam pagrindiniam objektui priskiria vieną numatomą langelį, o „daugelis su vienu“ atitikimo metodas leidžia kelias prognozes suderinti su vienu taikiniu. Abi strategijos formuoja tai, kaip šiuolaikiniai detektoriai, tokie kaip DETR ir „Faster R-CNN“, mokosi lokalizuoti objektus, kiekvienas iš jų turi skirtingus kompromisus tikslumo, mokymo stabilumo ir pasikartojančių aptikimų tvarkymo srityse.

A/B testavimas modelių aptarnavime ir vieno modelio diegime

A/B testavimas modeliuose nukreipia srautą tarp konkuruojančių modelio versijų, kad būtų galima įvertinti realų našumą, o diegiant vieną modelį visiems vartotojams pateikiamas vienas modelis. Komandos renkasi iš jų pagal rizikos toleranciją, srauto kiekį ir statistinio patvirtinimo poreikį prieš visišką diegimą.