dirbtinis intelektasmašininis mokymasisnatūralios kalbos apdorojimaskompiuterinis matymasgilusis mokymasismultimodalinis dirbtinis intelektas
Vizualiniai klausimų atsakymai ir tekstiniai atsakymai
Vizualinių klausimų atsakymų (VQA) metodas interpretuoja vaizdus, kad atsakytų į klausimus apie vaizdinį turinį, o tekstinių klausimų atsakymų (Text QA) metodas orientuotas į atsakymų ištraukimą arba generavimą iš rašytinių ištraukų. Abu metodai priskiriami natūralios kalbos apdorojimui, tačiau iš esmės skiriasi įvesties būdais ir dirbtinio intelekto metodais, kuriais remiasi.
Akcentai
VQA apdoroja ir vaizdus, ir tekstą, o teksto QA dirba tik su rašytine kalba
VQA reikalauja multimodalinės architektūros, apjungiančios regėjimo ir kalbos modelius.
Teksto kokybės užtikrinimas (QA) turi ilgesnę tyrimų istoriją, siekiančią septintąjį dešimtmetį.
Nuo 2017 m. abi sritys buvo transformuotos transformatorių pagrindu sukurtomis architektūromis.
Kas yra Vizualinis klausimų atsakymas?
Dirbtinio intelekto užduotis, kai modeliai analizuoja vaizdus ir atsako į natūralios kalbos klausimus apie jų vaizdinį turinį.
VQA sujungia kompiuterinę regą ir natūralios kalbos apdorojimą, kad vienu metu suprastų ir vaizdus, ir tekstą
2015 m. išleistame VQA duomenų rinkinyje yra daugiau nei 200 000 vaizdų su daugiau nei 1,1 milijono klausimų ir atsakymų.
Šiuolaikinės VQA sistemos paprastai naudoja transformatorines architektūras arba didelius multimodalinius modelius, tokius kaip GPT-4V ir LLaVA.
VQA turi realių pritaikymų prieinamumo įrankiuose silpnaregiams, medicininės vaizdų analizės ir autonominių sistemų srityse.
Standartinių VQA etaloninių testų našumas gerokai pagerėjo – geriausi modeliai dabar viršija 80 % tikslumą VQA v2 teste.
Kas yra Atsakymai į tekstinius klausimus?
Dirbtinio intelekto užduotis, kai modeliai skaito ir supranta rašytines ištraukas, kad atsakytų į klausimus, pagrįstus tekstine informacija.
Teksto kokybės užtikrinimas (QA) įsišaknijęs ankstyvuosiuose NLP tyrimuose, vykusiuose septintajame ir aštuntajame dešimtmečiuose, naudojant tokias sistemas kaip BASEBALL ir LUNAR.
2016 m. išleistas Stanfordo klausimų ir atsakymų duomenų rinkinys (SQuAD) tapo pamatiniu etalonu, kuriame yra daugiau nei 100 000 klausimų ir atsakymų porų.
Šiuolaikinės teksto kokybės užtikrinimo sistemos naudoja didelius kalbos modelius, tokius kaip BERT, RoBERTa ir GPT variantus, kad pasiektų žmogaus lygio našumą.
Teksto kokybės užtikrinimas suteikia galimybę naudotis paieškos sistemomis, virtualiais asistentais, tokiais kaip „Siri“ ir „Alexa“, bei klientų aptarnavimo pokalbių robotais.
Išgaunamoji kokybės užtikrinimo sistema (QA) ištraukia atsakymus tiesiai iš šaltinio teksto, o abstrakti QA generuoja naujus atsakymus, naudodama ištrauką kaip kontekstą.
Palyginimo lentelė
Funkcija
Vizualinis klausimų atsakymas
Atsakymai į tekstinius klausimus
Įvesties būdas
Vaizdai, susieti su tekstiniais klausimais
Teksto ištraukos suporuotos su tekstiniais klausimais
Pagrindinės dirbtinio intelekto technikos
Kompiuterinė rega, multimodaliniai transformatoriai, regos ir kalbos modeliai
Natūralios kalbos apdorojimas, transformatorių modeliai, informacijos paieška
Tipinės modelių architektūros
ViLBERT, LLaVA, GPT-4V, BLIP-2, Flamingo
BERT, RoBERTa, T5, GPT, paieškos ir papildymo sistemos
Pagrindiniai lyginamieji rodikliai
VQA v2, GQA, OK-VQA, TextVQA
SQUAD, natūralūs klausimai, TriviaQA, MS MARCO
Pagrindiniai iššūkiai
Vizualinis įžeminimas, OCR vaizduose, erdvinis mąstymas, dviprasmiškų vaizdinių nuorodų valdymas
Skaitymo supratimas, atsakymai į neatsakomus klausimus, kelių etapų samprotavimas, ilgalaikis konteksto supratimas
Duomenų reikalavimai
Vaizdo-klausimo-atsakymo tripletai, kuriems reikalingos ir vaizdinės, ir tekstinės anotacijos
Klausimų ir atsakymų poros, pagrįstos dokumentais, kurioms dažnai reikia eksperto atliktų anotacijų
Skaičiavimo sudėtingumas
Didesnis dėl to, kad vienu metu apdorojami ir vaizdiniai, ir tekstiniai duomenys.
Paprastai žemesnis, orientuotas į teksto tokenizavimą ir transformatoriaus dėmesį
Realaus pasaulio programos
Pagalbinės technologijos akliesiems, vaizdų pagrindu sukurta paieška, medicininė diagnostika, stebėjimas
Paieškos sistemos, virtualūs asistentai, edukaciniai įrankiai, teisinių dokumentų analizė
Istorinė raida
Kaip atskira sritis iškilo apie 2014–2015 m., išaugus gilaus mokymosi (angl. deep learning) technologijoms.
Tobulėjo dešimtmečius, o po transformatorių revoliucijos 2017 m. pasiekta didelė pažanga
Išsamus palyginimas
Įvesties apdorojimas ir būdai
Svarbiausias šių dviejų užduočių skirtumas yra tai, ką jos apdoroja. Vizualinių klausimų atsakymų funkcija reikalauja, kad modeliai interpretuotų pikselių duomenis iš vaizdų kartu su tekstiniais klausimais, o tam reikalingi sudėtingi vaizdo kodavimo įrenginiai, galintys išskirti prasmingas ypatybes iš vaizdinio turinio. Tekstinių klausimų atsakymų funkcija, priešingai, veikia tik su rašytine kalba, leisdama modeliams sutelkti savo skaičiavimo išteklius į kalbinį supratimą, o ne skaidyti dėmesį tarp dviejų labai skirtingų duomenų tipų.
Modelio architektūra ir sudėtingumas
VQA sistemos paprastai sujungia vaizdo kodavimo įrenginį (pvz., CNN arba vaizdo transformatorių) su kalbos modeliu, suliedamos šiuos atvaizdavimus per kryžminio dėmesio arba projekcijos sluoksnius. Ši multimodalinė architektūra padidina sudėtingumą. Teksto kokybės užtikrinimo modeliai gali remtis vien kalbos transformatoriais, nereikalaujant vaizdo apdorojimo komponentų, todėl juos paprastai paprasčiau apmokyti ir diegti, nors jiems vis tiek reikia didelių skaičiavimo išteklių didelio masto kalbos supratimui.
Reikalingi samprotavimo gebėjimai
Teksto kokybės užtikrinimas (VQA) dažnai reikalauja sudėtingo samprotavimo ilgose ištraukose, įskaitant kelių šuolių išvadų darymą, kai atsakymams reikia derinti informaciją iš kelių sakinių ar dokumentų. VQA pateikia papildomų samprotavimo iššūkių, tokių kaip erdvinis supratimas (kur yra objektai), skaičiavimas (kiek elementų pasirodo) ir regimieji sveiko proto įgūdžiai (kas paprastai vyksta scenoje). Abi užduotys reikalauja žinių apie pasaulį, tačiau VQA turi pagrįsti šias žinias vaizdiniais įrodymais.
Benchmark našumas ir pažanga
Teksto kokybės užtikrinimas (QA) padarė didelę pažangą – modeliai dabar atitinka arba viršija žmogaus rezultatus tokiuose lyginamuosiuose testuose kaip SQuAD 2.0. VQA taip pat gerokai pažengė į priekį, nors ši sritis nuolat susiduria su iššūkiais, susijusiais su klausimais, kuriems reikalingos išorinės žinios, be to, kas matoma paveikslėlyje. OK-VQA įvedimas išryškino šią spragą ir paskatino tyrėjus rinktis labiau žiniomis pagrįstus vizualinio samprotavimo metodus.
Praktinis pritaikymas
Teksto kokybės užtikrinimas (VQA) dominuoja informacijos paieškos scenarijuose, naudodamasis viskuo – nuo „Google“ paieškos siūlomų ištraukų iki įmonių žinių bazių. VQA geriausiai pritaikomas ten, kur vizualinis kontekstas yra būtinas, pavyzdžiui, padedant silpnaregiams suprasti aplinką, analizuojant medicininius skenavimus arba įgalinant robotus sąveikauti su aplinka remiantis vizualinėmis užklausomis. Abi technologijos vis labiau susilieja į daugiarūšius dirbtinio intelekto asistentus, kurie gali sklandžiai apdoroti ir tekstą, ir vaizdus.
Privalumai ir trūkumai
Vizualinis klausimų atsakymas
Privalumai
+Apdoroja daugiarūšius įvestis
+Įgalina pritaikymo neįgaliesiems įrankius
+Raiškios realaus pasaulio programos
+Apjungia regėjimą ir kalbą – dirbtinis intelektas
Pasirinkta
−Didesnės skaičiavimo išlaidos
−Sudėtingesnės architektūros
−Riboti mokymo duomenys
−Sunkiau įvertinti tikslumą
Atsakymai į tekstinius klausimus
Privalumai
+brandžios technologijos
+Platūs etalonai prieinami
+Mažesni skaičiavimo poreikiai
+Platus pritaikymas
Pasirinkta
−Nepavyksta apdoroti vaizdinio turinio
−Kovoja su dviprasmybe
−Gali haliucinuoti atsakymai
−Reikalingi kokybiški pirminiai dokumentai
Dažni klaidingi įsitikinimai
Mitas
VQA modeliai gali iš tikrųjų „matyti“ ir suprasti vaizdus taip, kaip tai daro žmonės.
Realybė
VQA sistemos apdoroja vaizdus kaip skaitmeninius išraiškinius ir mokosi statistinių modelių, užuot pasiekusios tikrą vaizdinį supratimą. Jos gali neatsakyti į klausimus, kuriems reikalingas sveikas protas, arba kai vaizdiniai elementai yra dviprasmiški, net jei teisingas atsakymas žmogui atrodo akivaizdus.
Mitas
Teksto kokybės užtikrinimo sistemos visada pateikia tikslius, faktinius atsakymus.
Realybė
Net ir pažangiausi kalbos modeliai gali generuoti tikėtinai skambančius, bet neteisingus atsakymus – šis reiškinys vadinamas haliucinacija. Teksto kokybės užtikrinimo sistemoms taip pat gali kilti sunkumų atsakant į klausimus, kuriems reikalinga informacija, kurios nėra jų mokymo duomenyse ar šaltinio dokumentuose, o jų našumas labai skiriasi priklausomai nuo sričių ir klausimų tipų.
Mitas
VQA yra tiesiog vaizdų klasifikavimas su papildomais žingsniais.
Realybė
VQA reikalauja daug sudėtingesnių galimybių nei klasifikavimas. Modeliai turi suprasti erdvinius ryšius, skaičiuoti objektus, skaityti tekstą vaizduose, interpretuoti scenas kontekste ir samprotauti apie vaizdinius elementus, susijusius su natūralios kalbos užklausomis. Dėl to tai yra žymiai sudėtingesnė problema nei paprastas vaizdų žymėjimas.
Mitas
Teksto kokybės užtikrinimas taps nebeaktualus, nes dirbtinis intelektas pereis prie multimodalinių sistemų.
Realybė
Teksto kokybės užtikrinimas išlieka esminis net ir augant multimodaliniam dirbtiniam intelektui. Didžioji dalis realaus pasaulio informacijos vis dar egzistuoja teksto formatu, o gryno teksto sistemos dažnai pranoksta multimodalinius modelius atliekant užduotis, kuriose naudojamas tik tekstas, ir reikalauja mažiau skaičiavimo išteklių. Multimodalinės sistemos paprastai remiasi teksto kokybės užtikrinimo galimybėmis, o ne jas pakeičia.
Mitas
Tiek VQA, tiek teksto QA reikalauja tokio paties tipo ir kiekio mokymo duomenų.
Realybė
VQA reikalauja brangių anotuotų duomenų rinkinių, jungiančių vaizdus su klausimais ir atsakymais, dažnai pasitelkiant minios darbuotojus, kad būtų sugeneruoti įvairūs klausimai apie vaizdinį turinį. Teksto kokybės užtikrinimas gali panaudoti esamus dokumentus ir ištraukas, nors aukštos kokybės klausimų ir atsakymų porų kūrimas vis tiek reikalauja didelių žmogiškųjų anotacijų pastangų.
Dažnai užduodami klausimai
Kuo pagrindinis skirtumas tarp VQA ir tekstinės QA?
Pagrindinis skirtumas yra įvesties modalumas. Vizualinių klausimų atsakymų sistema apdoroja vaizdus kartu su tekstiniais klausimais, todėl modeliams reikia suprasti vaizdinį turinį. Tekstinių klausimų atsakymų sistema veikia tik su rašytinėmis ištraukomis ir klausimais, daugiausia dėmesio skirdama kalbiniam supratimui. Šis esminis skirtumas formuoja kiekvienos srities architektūras, mokymo duomenis ir taikymą.
Kas dirbtiniam intelektui sunkiau išspręsti: vaizdo kokybės užtikrinimą ar teksto kokybės užtikrinimą?
Abu kelia unikalių iššūkių, tačiau VQA paprastai laikoma sunkesne, nes modeliai turi vienu metu apdoroti ir integruoti du labai skirtingus duomenų tipus. Teksto kokybės užtikrinimas pasiekė žmogaus lygio našumą keliuose lyginamuosiuose testuose, o VQA vis dar sunkiai susidoroja su klausimais, kuriems reikia išorinių žinių arba sudėtingo vizualinio samprotavimo, neapsiribojančio paprastu objektų atpažinimu.
Ar šiuolaikinės dirbtinio intelekto sistemos gali atlikti ir vaizdo kokybės patikrinimą, ir teksto kokybės patikrinimą?
Taip, šiuolaikiniai multimodaliniai didelių kalbų modeliai, tokie kaip GPT-4V, Gemini ir Claude, gali atlikti abi užduotis vienoje sistemoje. Šie suvienodinti modeliai gali atsakyti į klausimus apie vaizdus, teksto ištraukas arba abiejų derinius. Tačiau specializuotos sistemos dažnai pranoksta bendrosios paskirties modelius pagal konkrečius kiekvienos srities lyginamuosius rodiklius.
Kokie yra dažniausiai VQA panaudojimo būdai realiame pasaulyje?
VQA suteikia galimybę naudoti pagalbines technologijas silpnaregiams, leisdama tokioms programoms kaip „Seeing AI“ ir „Be My Eyes“ aprašyti vaizdinius vaizdus. Kitos programos apima medicininių vaizdų analizę, kai gydytojai pateikia užklausas skenuotų duomenų formatu, edukacinius įrankius, kurie atsako į studentų klausimus apie diagramas, ir turinio moderavimo sistemas, kurios žymi netinkamus vaizdus pagal tekstinius užklausimus.
Kiek tikslios dabartinės teksto kokybės užtikrinimo sistemos?
„Top Text“ kokybės užtikrinimo sistemos dabar pasiekia daugiau nei 90 % tikslumą, vertinant standartinius testus, tokius kaip „SQuAD 2.0“, dažnai prilygstančias arba net viršijančias žmogaus našumą atliekant išgavimo užduotis. Tačiau tikslumas labai skiriasi priklausomai nuo srities, o specializuotos sritys, tokios kaip teisiniai ar medicininiai tekstai, kelia didesnių iššūkių. Abstrakčios kokybės užtikrinimo sistemos, kurios generuoja atsakymus, o ne juos išgauna, paprastai pasižymi mažesniu tikslumu ir didesniu haliucinacijų dažniu.
Kokie duomenų rinkiniai naudojami VQA modeliams apmokyti?
Populiarūs VQA duomenų rinkiniai apima VQA v2 su daugiau nei 1,1 milijono klausimų ir atsakymų porų, apimančių daugiau nei 200 000 vaizdų, GQA, kuri orientuota į scenų grafikų kompozicijos klausimus, OK-VQA, kuriai reikia išorinių žinių, ir TextVQA, kuri specialiai testuoja teksto skaitymą vaizduose. Šie duomenų rinkiniai suteikia pagrindą šiuolaikinių vizualinių klausimų ir atsakymų sistemų mokymui ir vertinimui.
Ar VQA modeliams reikia atlikti vaizdų OCR?
Daugeliui VQA klausimų reikia skaityti vaizduose matomą tekstą, pvz., ženkluose, etiketėse ar dokumentuose. Tokie modeliai, kaip „TextVQA“ lyginamajame teste išbandyti, turi turėti OCR galimybes arba naudoti kompleksines architektūras, kurios gali atpažinti tekstą vaizduose. Tai sukuria dar vieną sudėtingumo sluoksnį, viršijantį pagrindinį vizualinį supratimą.
Kaip transformatoriaus architektūra paveikė abu laukus?
„Transformers“ po jų pristatymo 2017 m. sukėlė revoliuciją tiek VQA, tiek teksto kokybės užtikrinimo sistemose. Teksto kokybės užtikrinimo srityje tokie modeliai kaip BERT ir RoBERTa pasiekė proveržio našumą, iš anksto apmokydami didelius teksto korpusus. VQA srityje vaizdo ir kalbos transformatoriai, tokie kaip ViLBERT ir BLIP, leido atlikti sudėtingesnį vaizdinės ir tekstinės informacijos suliejimą, todėl atsirado dabartinė galingų multimodalinių modelių karta.
Ar teksto kokybės užtikrinimo sistemos gali apdoroti klausimus apie dokumentus, kurių niekada nematė?
Šiuolaikinės teksto kokybės užtikrinimo sistemos gali atsakyti į klausimus apie naujus dokumentus, naudodamos paieškos papildytos generacijos (RAG) metodus. Šios sistemos pirmiausia suranda atitinkamas ištraukas iš dokumentų rinkinio, o tada, naudodamos kalbos modelius, sugeneruoja atsakymus pagal gautą kontekstą. Tai leidžia joms tvarkyti klausimus apie atsitiktinius dokumentus be pakartotinio mokymo, nors tikslumas priklauso nuo paieškos kokybės.
Kokių įgūdžių reikia dirbant su VQA ir teksto kokybės užtikrinimo tyrimais?
Teksto kokybės užtikrinimo (QA) tyrimams pirmiausia reikalingos natūralios kalbos apdorojimo, lingvistikos ir transformatorių architektūrų žinios. VQA tyrimams taip pat reikalingos kompiuterinės regos, vaizdų apdorojimo ir multimodalinio mokymosi metodų žinios. Abiejose srityse naudojami tvirti mašininio mokymosi pagrindai, tačiau VQA tyrėjams paprastai reikia platesnės patirties, apimančios kelias dirbtinio intelekto posritis.
Nuosprendis
Rinkitės vizualinius klausimų atsakymus, kai jūsų programai reikia suprasti vaizdus, vaizdo įrašų kadrus ar vaizdinius dokumentus, kur vien teksto nepakanka. Tekstiniai klausimų atsakymai išlieka geresniu pasirinkimu dokumentų analizei, paieškos sistemoms ir scenarijams, kai informacija daugiausia pateikiama rašytine forma. Šiuolaikinės dirbtinio intelekto sistemos vis dažniau derina abi galimybes, todėl praktiškiausias būdas dažnai apima multimodalinių modelių, kurie apdoroja ir vaizdinę, ir tekstinę įvestis, diegimą.