mākslīgais intelektsinformācijas atgūšanadatorredzedabiskās valodas apstrādemeklēšanas tehnoloģija
Attēlu apzinoša izguve salīdzinājumā ar teksta izguvi
Attēlu apzinoša izguve interpretē vizuālo saturu, lai atrastu atbilstības, savukārt teksta izguve balstās uz rakstiskiem vaicājumiem un dokumentu indeksēšanu. Abas pieejas nodrošina modernas meklētājprogrammas, taču tās ievērojami atšķiras tajā, kā tās izprot lietotāja nolūku un apstrādā informāciju dažādos datu veidos.
Iezīmes
Attēlu apzinoša atgūšana novērš nepieciešamību aprakstīt vizuālo saturu vārdos, padarot to ideāli piemērotu iepirkšanās un identifikācijas uzdevumiem
Teksta izguve piedāvā izcilu precizitāti dokumentu meklēšanai un informācijas izguvei lielos teksta korpusos.
Mūsdienu multimodālie modeļi, piemēram, CLIP, pārvar plaisu starp vizuālo un tekstuālo izpratni.
Teksta izguve gūst labumu no gadu desmitiem ilgas izpētes un nobriedušiem algoritmiem, piemēram, BM25 un BERT balstītas ranžēšanas.
Kas ir Attēlu apzinoša izguve?
Izguves pieeja, kas analizē vizuālo saturu, izmantojot datorredzi un dziļo mācīšanos, lai atrastu atbilstošas atbilstības.
Attēlu apzinošas izguves sistēmas izmanto konvolucionālos neironu tīklus un redzes transformatorus, lai no attēliem iegūtu pazīmes.
Modernas sistēmas, piemēram, CLIP, ko izstrādājusi OpenAI, apgūst kopīgus attēlu un teksta iegulšanas veidus starpmodālai meklēšanai.
Vizuālās meklētājprogrammas var identificēt objektus, ainas, tekstu attēlos un pat abstraktus jēdzienus
Pinterest Lens un Google Lens katru mēnesi apstrādā miljardiem vizuālu vaicājumu, izmantojot attēlu uztveršanas metodes.
Attēlu apzinoša izguve lieliski palīdz atrast vizuāli līdzīgus produktus, orientierus un mākslas darbus, neprasot teksta aprakstus
Kas ir Teksta bāzes izguve?
Tradicionāla izguves metode, kas salīdzina rakstiskus vaicājumus ar indeksētiem teksta dokumentiem, izmantojot atslēgvārdu un semantisko analīzi.
Teksta atgūšanas pirmsākumi meklējami 20. gs. sešdesmitajos gados, kad Kornela universitātē tika izstrādātas tādas agrīnas sistēmas kā SMART.
Mūsdienu teksta atgūšana izmanto BM25, TF-IDF un blīvu fragmentu atgūšanas algoritmus rezultātu ranžēšanai.
Meklētājprogrammas, piemēram, Google, katru dienu apstrādā vairāk nekā 8,5 miljardus teksta meklējumu, izmantojot uz tekstu balstītu izgūšanu.
BERT un citi transformatoru modeļi ir ievērojami uzlabojuši semantisko izpratni teksta izguvē.
Teksta datu atgūšana veido vairuma uzņēmumu meklēšanas, juridisko datubāzu un akadēmisko pētījumu rīku mugurkaulu.
Salīdzinājuma tabula
Funkcija
Attēlu apzinoša izguve
Teksta bāzes izguve
Primārā ievade
Attēli, vizuālais saturs, dažreiz apvienots ar tekstu
Rakstiski vaicājumi, atslēgvārdi, dabiskās valodas jautājumi
Galvenā tehnoloģija
Datorredze, CNN, redzes transformatori, CLIP modeļi
Dabiskās valodas apstrāde, BM25, blīvi iegulti algoritmi, BERT
Labākie lietošanas gadījumi
Vizuāla produktu meklēšana, orientieru identificēšana, apgrieztā attēla meklēšana
Dokumentu meklēšana, meklēšana tīmeklī, akadēmiskie pētījumi, uzņēmumu zināšanu bāzes
Vaicājumu sarežģītība
Var būt tik vienkārši kā fotoattēla augšupielāde
Nepieciešams, lai lietotāji formulētu savu nodomu vārdos
Semantiskā izpratne
Izprot vizuālo līdzību, stilu, kompozīciju un kontekstu
Saprot sinonīmus, nolūku, kontekstu un valodas nianses
Datu prasības
Lieli marķētu attēlu datu kopumi, vizuālo elementu datubāzes
Teksta korpusi, dokumentu indeksi, atslēgvārdu datubāzes
Apstrādes ātrums
Parasti lēnāks attēlu apstrādes pieskaitāmo izmaksu dēļ
Parasti ātrāk ar optimizētām indeksēšanas struktūrām
Precizitāte neskaidros vaicājumos
Vizuālais konteksts var dabiski atšķirties
Varētu rasties grūtības bez pietiekama tekstuālā konteksta
Detalizēts salīdzinājums
Kā viņi apstrādā vaicājumus
Attēlu apzinoša izguve sākas ar augšupielādētā attēla vizuālā satura analīzi, sadalot to tādās īpašībās kā formas, krāsas, tekstūras un atpazīti objekti. Šīs pazīmes tiek pārveidotas matemātiskos attēlojumos, ko sauc par iegultiem elementiem, kas uztver attēla semantisko nozīmi. Uz tekstu balstīta izguve izmanto principiāli atšķirīgu ceļu, analizējot rakstiskus vaicājumus, lai identificētu atslēgvārdus, izprastu to attiecības un salīdzinātu tos ar iepriekš indeksētiem dokumentiem, izmantojot algoritmus, kas izvērtē atbilstību, pamatojoties uz terminu biežumu un semantisko līdzību.
Stiprās puses dažādos scenārijos
Kad ieraugāt mēbeli, kas jums patīk, bet nezināt, kā to aprakstīt, attēlu apzinoša meklēšana izceļas, ļaujot uzņemt fotoattēlu un uzreiz atrast līdzīgus priekšmetus. Teksta meklēšana dominē, ja nepieciešama precīza informācijas meklēšana no lielām dokumentu kolekcijām, piemēram, meklējot konkrētus juridiskus precedentus vai akadēmiskus darbus. Abas pieejas mūsdienu sistēmās faktiski labi papildina viena otru, un daudzas platformas tagad piedāvā hibrīda meklēšanu, kas apvieno abas metodes.
Tehniskie pamati
Šo sistēmu neironu arhitektūras ievērojami atšķiras. Attēlu apzinoša izguve balstās uz redzes modeļiem, kas apmācīti ar milzīgām attēlu datu kopām, piemēram, LAION-5B, iemācoties atpazīt modeļus miljoniem vizuālu piemēru. Uz tekstu balstīta izguve balstās uz gadu desmitiem ilgu informācijas izguves pētījumu, iekļaujot gan klasiskos algoritmus, piemēram, BM25, gan modernas uz transformatoriem balstītas pieejas. Jaunākie sasniegumi multimodālo modeļu jomā ir sākuši sapludināt šīs robežas, ļaujot sistēmām saprast gan attēlus, gan tekstu vienotos ietvaros.
Lietotāja pieredzes atšķirības
Attēlu apzinoša meklēšana novērš nepieciešamību vārdos aprakstīt meklēto, kas ir nenovērtējami, ja vizuālās iezīmes ir grūti formulēt. Teksta meklēšana piedāvā lielāku precizitāti, ja precīzi zināt, kāda informācija jums ir nepieciešama, un varat to skaidri izteikt. Lietotāji bieži uzskata, ka teksta meklēšana ir paredzamāka, jo viņi var precīzi redzēt, kā viņu vaicājums atbilst rezultātiem, savukārt vizuālā meklēšana dažreiz atgriež pārsteidzošas, bet atbilstošas atbilstības, pamatojoties uz vizuālo līdzību.
Ierobežojumi un izaicinājumi
Attēlu apzinoša izguve cīnās ar abstraktiem jēdzieniem, kuriem nav skaidru vizuālu attēlojumu, un tai ir nepieciešami ievērojami skaitļošanas resursi reāllaika apstrādei. Teksta apgūšana saskaras ar problēmām saistībā ar vārdu krājuma neatbilstību, kur lietotāji kaut ko apraksta, izmantojot citus terminus nekā dokumentos. Abas pieejas turpina attīstīties, un pētnieki aktīvi strādā pie labākas starpmodālās izpratnes, kas galu galā varētu padarīt atšķirību starp tām mazāk jēgpilnu.
Priekšrocības un trūkumi
Attēlu apzinoša izguve
Iepriekšējumi
+Apraksts nav nepieciešams
+Atrod vizuāli līdzīgus vienumus
+Lieliski piemērots iepirkšanās veikšanai
+Labi tiek galā ar neskaidrībām
Ievietots
−Augstākas skaitļošanas izmaksas
−Nepieciešami vizuāli dati
−Cīnās ar abstrakcijām
−Ierobežots ar apmācības datiem
Teksta bāzes izguve
Iepriekšējumi
+Precīza vaicājumu kontrole
+Nobriedusi tehnoloģija
+Ātra apstrāde
+Viegli darbojas bezsaistē
Ievietots
−Vārdnīcas neatbilstības problēmas
−Grūti aprakstīt vizuālos materiālus
−Nepieciešams skaidrs nodoms
−Nepamana vizuālo kontekstu
Biežas maldības
Mīts
Attēlu apzinoša izguve var lasīt tekstu attēlos tikpat labi kā specializētas OCR sistēmas.
Realitāte
Lai gan mūsdienu attēlu atpazīšanas sistēmas var veikt OCR, tās parasti nav tam optimizētas. Specializētas OCR sistēmas, piemēram, Tesseract vai Google un AWS mākoņpakalpojumi, parasti nodrošina augstāku precizitāti teksta ieguves uzdevumos, īpaši ar sarežģītiem izkārtojumiem vai ar roku rakstītu saturu.
Mīts
Teksta datu atgūšana kļūst novecojusi mākslīgā intelekta attīstības dēļ.
Realitāte
Uz tekstu balstīta izguve joprojām ir dominējošā meklēšanas forma pasaulē. Mākslīgais intelekts to faktiski ir uzlabojis, pateicoties labākai semantiskajai izpratnei, taču fundamentālā pieeja, kas saskaņo teksta vaicājumus ar teksta dokumentiem, joprojām nodrošina lielāko daļu meklētājprogrammu, uzņēmumu sistēmu un pētniecības datubāzu darbību.
Mīts
Attēlu apzinoša izguve vienmēr sniedz precīzākus rezultātus nekā uz tekstu balstīta izguve.
Realitāte
Precizitāte ir pilnībā atkarīga no lietošanas gadījuma. Lai atrastu konkrētu dokumentu vai atbildētu uz faktuālu jautājumu, uz tekstu balstīta izguve parasti pārspēj vizuālās pieejas. Attēlos balstīta izguve ir īpaši efektīva, ja vizuālā līdzība ir galvenais atbilstības kritērijs.
Mīts
Lai ieviestu jebkuru no izguves pieejām, ir nepieciešami milzīgi datu kopumi.
Realitāte
Iepriekš apmācīti modeļi un API ir padarījuši abas pieejas pieejamas bez nepieciešamības veikt apmācību no nulles. Tādi pakalpojumi kā Google Cloud Vision, AWS Rekognition un OpenAI CLIP nodrošina lietošanai gatavas iespējas, ko mazas komandas var integrēt bez plašām mašīnmācīšanās zināšanām.
Mīts
Vizuālā meklēšana pilnībā aizstāj nepieciešamību pēc teksta aprakstiem e-komercijā.
Realitāte
Lielākā daļa veiksmīgo e-komercijas platformu izmanto hibrīdas pieejas. Teksta apraksti joprojām ir ļoti svarīgi SEO, pieejamības un lietotāju vajadzībām, kuri dod priekšroku vaicājumu rakstīšanai. Vizuālā meklēšana kalpo kā papildinoša funkcija, nevis aizstājēja, kas ir īpaši noderīga mobilo ierīču lietotājiem un tiem, kuri nevar viegli aprakstīt to, ko vēlas.
Bieži uzdotie jautājumi
Kāda ir galvenā atšķirība starp attēlu apzinošu un uz tekstu balstītu izguvi?
Galvenā atšķirība ir ievades modalitātē un apstrādes pieejā. Attēlu apzinoša izguve analizē vizuālo saturu, izmantojot datorredzes modeļus, lai atrastu atbilstības, pamatojoties uz vizuālajām iezīmēm un līdzību. Teksta apzinoša izguve apstrādā rakstiskus vaicājumus un salīdzina tos ar indeksētiem teksta dokumentiem, izmantojot lingvistisko analīzi un rangu noteikšanas algoritmus. Katra pieeja ir optimizēta dažādiem meklēšanas uzdevumu veidiem.
Kura meklēšanas metode ir precīzāka vispārīgai meklēšanai?
Precizitāte ir ļoti atkarīga no tā, ko meklējat. Uz tekstu balstīta izguve parasti ir vispiemērotākā faktu meklējumiem, dokumentu meklēšanai un informācijas izguves uzdevumiem. Attēlu apzinoša izguve labāk darbojas vizuālās līdzības meklēšanā, produktu atrašanā un identifikācijas uzdevumos. Vispārējai tīmekļa meklēšanai uz tekstu balstītas metodes joprojām dominē, jo lielākā daļa tīmekļa satura ir balstīta uz tekstu.
Vai attēlu apzinoša atgūšana var darboties bez teksta aprakstiem?
Jā, tīra attēlu apzinoša izguve var darboties, izmantojot tikai vizuālas funkcijas bez jebkādas teksta ievades. Sistēmas, piemēram, apgrieztā attēlu meklēšana un vizuālo produktu ieteikumu dzinēji, darbojas šādā veidā. Tomēr daudzas mūsdienu ieviešanas apvieno vizuālo analīzi ar teksta izpratni, lai iegūtu labākus rezultātus, īpaši strādājot ar attēliem, kas satur tekstu vai kuriem nepieciešama kontekstuāla izpratne.
Kā CLIP ir saistīts ar attēlu apzinošu izgūšanu?
OpenAI izstrādātā CLIP (kontrastīvā valodas un attēlu iepriekšēja apmācība) ir revolucionizējusi attēlu apzinīgu izgūšanu, apgūstot kopīgus attēlu un teksta iegulšanas veidus. Tas ļauj vienam modelim izprast vizuālā un tekstuālā satura attiecības, nodrošinot jaudīgas starpmodālās meklēšanas iespējas. Varat meklēt, izmantojot attēlus, tekstu vai abu kombinācijas, un atrast semantiski saistītus rezultātus dažādās modalitātēs.
Vai teksta iegūšana ir ātrāka nekā attēlu apzinoša iegūšana?
Jā, parasti uz tekstu balstīta izguve ir ātrāka, jo teksta apstrādei nepieciešama mazāka skaitļošanas jauda nekā attēlu analīzei. Teksta indeksēšanu un vaicājumu saskaņošanu var optimizēt, izmantojot efektīvas datu struktūras, piemēram, apgrieztus indeksus. Attēlu apzinošai izguvei ir nepieciešama neironu tīkla secinājumu izmantošana pazīmju iegūšanai, kas prasa vairāk skaitļošanas resursu, lai gan aparatūras paātrinājums ir ievērojami samazinājis šo atšķirību.
Kuras nozares visvairāk gūst labumu no attēlu apzinīgas izguves?
E-komercijas, modes, nekustamā īpašuma un ceļojumu nozares gūst ievērojamu labumu no attēlu ziņā balstītas meklēšanas. Vizuālā produktu meklēšana palīdz pircējiem atrast līdzīgus vienumus, savukārt nekustamā īpašuma platformas to izmanto, lai atrastu mājas ar līdzīgām arhitektūras iezīmēm. Pinterest, Google Images un ASOS ir izveidojuši pilnīgu lietotāja pieredzi, balstoties uz vizuālās meklēšanas iespējām.
Kā hibrīdās izguves sistēmas apvieno abas pieejas?
Hibrīdsistēmas vienlaikus apstrādā gan attēlu, gan teksta ievades datus, apvienojot to iegultos elementus vai veicot paralēlas meklēšanas un apvienojot rezultātus. Piemēram, varat augšupielādēt attēlu un pievienot tekstu, piemēram, “līdzīgs, bet zilā krāsā”, lai precizētu rezultātus. Šīs sistēmas parasti izmanto multimodālus modeļus, kas saprot abas modalitātes vienotu attēlojumu ietvaros, piedāvājot abu pasauļu labāko.
Kādas ir attēlu apzinīgas atgūšanas ietekmes uz privātumu?
Attēlu apzinoša izguve rada vairāk bažu par privātumu nekā uz tekstu balstītas pieejas, jo attēli bieži satur identificējamu informāciju, piemēram, sejas, atrašanās vietas un personiskas mantas. Lietotāji, augšupielādējot fotoattēlus vizuālajās meklētājprogrammās, var netīšām kopīgot sensitīvus datus. Cienījami pakalpojumi ievieš privātuma aizsardzības pasākumus, taču lietotājiem ir jāsaprot, ka augšupielādētie attēli var tikt saglabāti un analizēti pakalpojumu uzlabošanai.
Vai teksta balstīta izguve var saprast sinonīmus un saistītos jēdzienus?
Pateicoties tādiem transformatoru modeļiem kā BERT un iegulšanas metodēm, mūsdienu teksta izguve ļoti labi apstrādā sinonīmus un semantiskās attiecības. Šīs sistēmas saprot, ka “automašīna” un “automobilis” attiecas uz līdzīgiem jēdzieniem, un tās var saskaņot vaicājumus ar dokumentiem pat tad, ja neparādās precīzi atslēgvārdi. Šī semantiskā izpratne ir ievērojami uzlabojusi meklēšanas kvalitāti salīdzinājumā ar vecākām atslēgvārdu saskaņošanas metodēm.
Kura pieeja ir labāka mobilajām lietotnēm?
Abas pieejas labi darbojas mobilajās ierīcēs, taču tām ir atšķirīgi mērķi. Teksta meklēšana ir efektīvāka akumulatora darbības laikā un uzticamāka jebkurā savienojamības situācijā. Attēlu uztveršana izceļas mobilajās ierīcēs, jo tālruņiem ir viegli pieejamas kameras, padarot vizuālo meklēšanu dabisku un ērtu. Daudzas veiksmīgas mobilās lietotnes, piemēram, Google Lens un Snapchat, ir izveidojušas funkcijas, kas īpaši paredzētas vizuālai meklēšanai, kuras pamatā ir kamera.
Kā šīs izguves metodes apstrādā daudzvalodu saturu?
Teksta izguvei ir labi izveidots daudzvalodu atbalsts, izmantojot tulkošanas slāņus un daudzvalodu iegulšanas modeļus, piemēram, mBERT un XLM-R. Attēlu apzinoša izguve apstrādā daudzvalodu saturu vienmērīgāk, jo vizuālās funkcijas ir valodas ziņā neitrālas, lai gan saistītajiem teksta metadatiem joprojām var būt nepieciešama valodai specifiska apstrāde. Starpmodālie modeļi, piemēram, CLIP, atbalsta vairākas valodas teksta un attēla saskaņošanai.
Kāda nākotne sagaida atgūšanas tehnoloģijas?
Nākotnē virzās uz vienotām multimodālām izguves sistēmām, kas nemanāmi apstrādā tekstu, attēlus, audio un video vienotā ietvarā. Lieli multimodālie modeļi jau tagad nodrošina dabiskāku meklēšanas pieredzi, kur lietotāji var apvienot dažādus ievades veidus. Sagaidāms, ka izguve kļūs sarunvalodas līmenī, kontekstu apzinošāka un spējīgāka izprast sarežģītus vaicājumus, kas aptver vairākas modalitātes un prasa spriešanu dažādos informācijas veidos.
Spriedums
Izvēlieties attēlu uztverošu izgūšanu, ja vizuālā līdzība ir vissvarīgākā, piemēram, produktu iegādē, objektu identificēšanā vai vizuāli līdzīgu dizainu meklēšanā. Uz tekstu balstīta izgūšana joprojām ir labākā izvēle informācijas ziņā apjomīgiem uzdevumiem, piemēram, pētniecībai, dokumentu meklēšanai un situācijām, kad precīzi teksta vaicājumi sniedz vislabākos rezultātus. Daudzas mūsdienu lietojumprogrammas gūst labumu no abu pieeju apvienošanas, lai nodrošinātu visaptverošas meklēšanas iespējas.