Dokumentu mākslīgais intelekts ar attēliem salīdzinājumā ar tradicionālajām dokumentu mākslīgā intelekta sistēmām
Dokumentu mākslīgais intelekts ar attēliem apstrādā vizuālo un tekstuālo saturu kopā, savukārt tradicionālā dokumentu mākslīgā intelekta galvenokārt mērķis ir teksta ieguve no strukturētiem izkārtojumiem. Jaunākā multimodālā pieeja apstrādā skenētas veidlapas, ar roku rakstītas piezīmes un iegulto grafiku, savukārt mantotās sistēmas izceļas ar tīru, ar tekstu bagātu dokumentu, piemēram, rēķinu un līgumu, parsēšanu.
Iezīmes
Dokumentu mākslīgais intelekts ar attēliem apstrādā vizuālo un tekstuālo saturu kopā, savukārt tradicionālās sistēmas tos uzskata par atsevišķiem soļiem.
Multimodālie modeļi apstrādā rokrakstu, zīmogus un iegulto grafiku bez specializētas konfigurācijas.
Tradicionālais dokumentu mākslīgais intelekts izceļas ar liela apjoma, standartizētu teksta ieguvi ar zemākām skaitļošanas prasībām.
Attēlus apzinošas sistēmas samazina veidņu uzturēšanu, vispārinot tās dažādos dokumentu izkārtojumos.
Kas ir Dokumentu mākslīgais intelekts ar attēliem?
Multimodāls mākslīgais intelekts, kas vienā dokumentā saprot tekstu, attēlus, tabulas un izkārtojumu kopā.
Izmanto redzes valodas modeļus, kas apstrādā pikseļus un tekstu vienlaicīgi, nevis apstrādā tos kā atsevišķas plūsmas.
Spēj interpretēt dokumentos iestrādātas ar roku rakstītas piezīmes, skices, zīmogus un parakstus.
Veidots uz transformatoru arhitektūrām, kas apvieno datorredzi un dabiskās valodas izpratni.
Apstrādā sarežģītus izkārtojumus, tostarp jauktu saturu, piemēram, diagrammas, fotoattēlus un blakus esošos tulkojumus.
Sasniedz lielāku precizitāti vizuāli bagātos dokumentos, salīdzinot ar tikai tekstu saturošiem ieguves kanāliem.
Kas ir Tradicionālās dokumentu mākslīgā intelekta sistēmas?
Uz tekstu orientēti mākslīgā intelekta cauruļvadi, kas iegūst strukturētus datus no dokumentiem, izmantojot OCR un uz noteikumiem balstītu parsēšanu.
Skenētu attēlu konvertēšanai mašīnlasāmā tekstā galvenokārt izmanto optisko rakstzīmju atpazīšanu (OCR).
Izmanto veidņu salīdzināšanas un uz noteikumiem balstītas programmas, lai identificētu laukus strukturētās formās.
Apstrādā dokumentus posmos: attēlu pirmapstrāde, teksta ieguve un pēc tam lauku klasifikācija.
Vislabāk darbojas ar tīriem, konsekventiem izkārtojumiem, piemēram, standartizētiem rēķiniem, čekiem un līgumiem.
Ir ieviests uzņēmumu darbplūsmās kopš 2010. gadu sākuma automatizācijas uzdevumiem.
Salīdzinājuma tabula
Funkcija
Dokumentu mākslīgais intelekts ar attēliem
Tradicionālās dokumentu mākslīgā intelekta sistēmas
Ievades veids
Teksts, attēli, tabulas, rokraksts un izkārtojums
Galvenokārt teksts, kas iegūts, izmantojot OCR
Galvenā tehnoloģija
Redzes-valodas transformatori (multimodāli)
OCR dzinēji, kā arī uz noteikumiem balstīti vai ML klasifikatori
Izkārtojuma apstrāde
Vizuāli izprot telpiskās attiecības
Atkarīgs no veidnēm vai koordinātu noteikumiem
Rokraksta atpazīšana
Iebūvēta rokraksta interpretācija
Ierobežota vai nepieciešamas specializētas OCR pievienojumprogrammas
Precizitāte sarežģītos dokumentos
Augstāks vizuāli bagātīgam vai nestrukturētam saturam
Zemāks, ja izkārtojumi atšķiras vai attēliem ir nozīme
Iestatīšanas sarežģītība
Nepieciešama minimāla veidnes konfigurācija
Bieži vien ir nepieciešams izveidot veidni katram dokumenta tipam
Mērogojamība
Vispārina jaunos dokumentu veidos
Labi mērogojas, bet nepieciešama atkārtota apmācība jauniem formātiem
Apstrādes ātrums
Nedaudz lēnāk multimodālu aprēķinu dēļ
Parasti ātrāk vienkāršai teksta ieguvei
Labākie lietošanas gadījumi
Veidlapas ar attēliem, medicīniskie ieraksti, ar roku rakstītas piezīmes
Standartizēti rēķini, līgumi, kvītis
Detalizēts salīdzinājums
Kā viņi apstrādā dokumentus
Tradicionālā dokumentu mākslīgā intelekta pieeja ir secīga: vispirms tā palaiž OCR, lai izvilktu tekstu no attēla, pēc tam piemēro noteikumus vai klasifikatorus, lai identificētu tādus laukus kā datumi, kopsummas vai nosaukumi. Dokumentu mākslīgais intelekts ar attēliem izmanto principiāli atšķirīgu pieeju, visu dokumentu, ieskaitot tā vizuālo struktūru, padodot vienā modelī. Tas nozīmē, ka sistēma var "redzēt", kur paraksts atrodas attiecībā pret veidlapas lauku, vai atpazīt, ka diagrammā ir dati, kurus ir vērts izvilkt.
Precizitāte reālās pasaules dokumentos
Reālās pasaules dokumenti reti izskatās pēc tīrām veidnēm. Tajos ir iekļauti logotipi, zīmogi, ar roku rakstītas piezīmes un iegulti fotoattēli. Tradicionālās sistēmas uz tiem kļūdās, jo to noteikumu dzinēji sagaida paredzamus izkārtojumus. Multimodāla dokumentu mākslīgais intelekts šīs variācijas apstrādā elegantāk, jo apmācības laikā tas mācījās no miljoniem dažādu piemēru, piešķirot tam sava veida vizuālu intuīciju, kādas trūkst vecākām sistēmām.
Uzstādīšana un apkope
Tradicionālā dokumentu mākslīgā intelekta ieviešana parasti nozīmē veidnes izveidi katram uzņēmuma apstrādātajam dokumentu veidam, kas var aizņemt nedēļas atkarībā no formāta. Kad pārdevējs maina rēķina izkārtojumu, veidne nedarbojas. Attēlus uztveroša dokumentu mākslīgā intelekta sistēma ievērojami samazina šo slogu, jo modelis vispārinās dažādos izkārtojumos bez tiešas programmēšanas, lai gan tā joprojām gūst labumu no precizēšanas konkrētai jomai paredzētos piemēros.
Izmaksas un infrastruktūra
Tradicionālajām sistēmām parasti ir mazāka skaitļošanas jauda, jo tās apstrādā tekstu tikai pēc OCR. Multimodāliem modeļiem ir nepieciešama lielāka GPU atmiņa un apstrādes jauda, jo tie analizē pikseļus un valodu kopā. Tomēr kopējās īpašumtiesību izmaksas bieži vien ir par labu jaunākajai pieejai, jo mazāk tiek tērēts veidņu uzturēšanai un izņēmumu apstrādei.
Kad katram ir jēga
Ja jūsu organizācija apstrādā tūkstošiem standartizētu veidlapu ar konsekventu izkārtojumu, tradicionālā dokumentu mākslīgā intelekta izmantošana joprojām ir stabila un izmaksu ziņā efektīva izvēle. Taču, ja jūsu dokumentos ir attēli, rokraksts vai neparedzams formatējums, multimodālā dokumentu mākslīgā intelekta izmantošana nodrošina labākus rezultātus ar mazāku manuālu konfigurāciju. Daudzi uzņēmumi tagad izmanto hibrīdus iestatījumus, izmantojot tradicionālās sistēmas tīrai teksta ieguvei un attēlu atpazītus modeļus sarežģītiem gadījumiem.
Priekšrocības un trūkumi
Dokumentu mākslīgais intelekts ar attēliem
Iepriekšējumi
+Apstrādā sarežģītus izkārtojumus
+Atpazīst rokrakstu
+Minimāla veidnes iestatīšana
+Izprot vizuālo kontekstu
Ievietots
−Augstākas skaitļošanas izmaksas
−Lēnāka apstrāde
−Jaunāks, mazāk pārbaudīts
−Nepieciešami GPU resursi
Tradicionālās dokumentu mākslīgā intelekta sistēmas
Iepriekšējumi
+Zemākas infrastruktūras vajadzības
+Ātra teksta ieguve
+Nobriedusi tehnoloģija
+Paredzama veiktspēja
Ievietots
−Pārtraukumi izkārtojuma maiņās
−Slikta attēlu apstrāde
−Veidnes uzturēšanas slogs
−Ierobežots rokraksta atbalsts
Biežas maldības
Mīts
Tradicionālā dokumentu mākslīgā intelekta un mūsdienu multimodālās sistēmas būtībā ir viens un tas pats, tikai ar atšķirīgu zīmolu.
Realitāte
Tie darbojas principiāli atšķirīgi. Tradicionālās sistēmas balstās uz OCR plus noteikumiem, savukārt multimodālā dokumentu mākslīgais intelekts apstrādā pikseļus un tekstu kopā vienotā modelī. Šī arhitektūras atšķirība rada ļoti atšķirīgas iespējas, īpaši ar vizuāli bagātiem dokumentiem.
Mīts
Dokumentu mākslīgais intelekts ar attēliem vienmēr sniedz precīzākus rezultātus nekā tradicionālās sistēmas.
Realitāte
Precizitāte ir atkarīga no dokumenta veida. Tīru, standartizētu rēķinu vai līgumu gadījumā tradicionālās uz OCR balstītās sistēmas var sasniegt vai pārsniegt multimodālo precizitāti, vienlaikus darbojoties ātrāk un lētāk. Attēlus uztveroša mākslīgā intelekta priekšrocība vislabāk izpaužas nekārtīgos, nestrukturētos vai vizuāli sarežģītos dokumentos.
Mīts
OCR vairs nav nepieciešams, tiklīdz ir pieejams multimodāls dokumentu mākslīgais intelekts.
Realitāte
OCR joprojām ir svarīga daudzos, pat multimodālos, cauruļvados. Dažas sistēmas izmanto OCR kā pirmapstrādes soli, lai nodrošinātu teksta marķierus līdzās vizuālajām iezīmēm. Atšķirība ir tāda, ka multimodālie modeļi nav atkarīgi tikai no OCR izvades, kā to dara tradicionālās sistēmas.
Mīts
Tradicionālā dokumentu mākslīgā intelekta izmantošana ir novecojusi un tiek pakāpeniski pārtraukta visur.
Realitāte
Tradicionālās sistēmas joprojām plaši tiek izmantotas banku, apdrošināšanas un loģistikas nozarēs, kur dokumentu formāti ir stabili un apstrādes apjomi ir milzīgi. Daudzas organizācijas tās izmanto kā uzticamu mugurkaulu, vienlaikus pievienojot multimodālu mākslīgo intelektu sarežģītākiem gadījumiem.
Mīts
Multimodāls dokuments. Mākslīgais intelekts var perfekti nolasīt jebkuru dokumentu bez apmācības.
Realitāte
Lai gan šie modeļi ir vispārināmi labāk nekā uz noteikumiem balstītas sistēmas, tie joprojām gūst labumu no precizēšanas, strādājot ar konkrētai jomai paredzētiem dokumentiem. Medicīniskajiem ierakstiem, juridiskiem līgumiem un inženiertehniskajiem rasējumiem ir īpatnības, kas uzlabo precizitāti ar mērķtiecīgu apmācību.
Bieži uzdotie jautājumi
Kāda ir galvenā atšķirība starp dokumentu mākslīgo intelektu ar attēliem un tradicionālo dokumentu mākslīgo intelektu?
Galvenā atšķirība slēpjas informācijas apstrādes veidā. Dokumentu mākslīgais intelekts ar attēliem izmanto multimodālus modeļus, kas vienā piegājienā interpretē tekstu, attēlus un izkārtojumu. Tradicionālais dokumentu mākslīgais intelekts vispirms izmanto OCR, lai iegūtu tekstu, un pēc tam piemēro noteikumus vai klasifikatorus, lai strukturētu šo tekstu. Tas padara jaunāko pieeju daudz labāku dokumentu apstrādē, kuros vizuālajiem elementiem ir nozīme.
Vai dokumentu mākslīgais intelekts ar attēliem var pilnībā aizstāt OCR?
Ne pilnībā. Lai gan multimodālie modeļi var veikt OCR līdzīgas funkcijas iekšēji, daudzas ražošanas sistēmas joprojām izmanto īpašus OCR dzinējus kā daļu no savas plūsmas. Atšķirība ir tāda, ka multimodālais mākslīgais intelekts nav atkarīgs tikai no OCR izvades, tāpēc tas var atgūties no OCR kļūdām, izmantojot vizuālo kontekstu.
Kura rēķinu apstrādes metode ir labāka?
Standartizētiem rēķiniem ar vienotu izkārtojumu tradicionālā dokumentu mākslīgā intelekta (AI) tehnoloģija bieži vien darbojas tikpat labi un ātrāk. Tomēr, ja jūsu rēķini nāk no daudziem piegādātājiem ar dažādiem formātiem vai ietver logotipus, zīmogus vai ar roku rakstītas piezīmes, dokumentu mākslīgais intelekts ar attēliem ievērojami ietaupīs laiku veidņu uzturēšanai un izņēmumu apstrādei.
Kā abas sistēmas salīdzināmas ar rokraksta atpazīšanu?
Tradicionālais dokumentu mākslīgais intelekts slikti apstrādā rokrakstu, ja vien tas nav savienots ar specializētiem rokraksta atpazīšanas modeļiem. Dokumentu mākslīgais intelekts ar attēliem parasti ietver rokraksta interpretāciju kā iebūvētu iespēju, jo multimodālie apmācības dati ietver rokraksta paraugus. Tas padara to daudz praktiskāku medicīnisko veidlapu, juridisko piezīmju un lauka pakalpojumu ziņojumu apstrādei.
Vai dokumentu mākslīgā intelekta ar attēliem uzturēšana ir dārgāka?
Parasti jā, jo multimodāliem modeļiem ir nepieciešams vairāk skaitļošanas resursu, jo īpaši GPU atmiņa. Tomēr kopējās īpašumtiesību izmaksas var būt zemākas, jo jūs tērējat mazāk līdzekļu veidņu izveidei, manuālai izņēmumu apstrādei un atkārtotai apmācībai, mainoties dokumentu formātiem. Izmaksu un ieguvumu attiecība ir atkarīga no dokumentu daudzveidības un apjoma.
Vai tradicionālās dokumentu mākslīgā intelekta sistēmas joprojām tiek atjauninātas?
Jā, pārdevēji turpina uzlabot OCR precizitāti, pievienojot mašīnmācīšanās klasifikatorus un atbalstot vairāk valodu. Tradicionālās sistēmas nav statiskas, taču to pamatarhitektūra joprojām ir teksta, nevis multimodāla. Lieli pakalpojumu sniedzēji, piemēram, ABBYY, Kofax un Rossum, turpina ieguldīt gan tradicionālos, gan ar mākslīgo intelektu uzlabotos piedāvājumos.
Kuras nozares visvairāk gūst labumu no dokumentu mākslīgā intelekta ar attēliem?
Vislielākos ieguvumus gūst veselības aprūpe, juridiskie pakalpojumi, apdrošināšana un loģistika. Medicīniskajās kartēs ir iekļautas ar roku rakstītas piezīmes un diagrammas. Juridiskajos dokumentos ir iekļauti skenēti pierādījumi un paraksti. Apdrošināšanas atlīdzību pieteikumos bieži ir iekļautas bojājumu fotogrāfijas. Loģistikas dokumentos ietilpst sūtījumu etiķetes, svītrkodi un muitas veidlapas ar dažādu izkārtojumu.
Vai abas sistēmas var izmantot kopā vienā darbplūsmā?
Pilnīgi piekrītu, un daudzi uzņēmumi tieši tā arī dara. Bieži vien tīri, standartizēti dokumenti tiek novirzīti caur tradicionālajām sistēmām, lai nodrošinātu ātrumu un izmaksu efektivitāti, savukārt sarežģīti vai neparasti dokumenti tiek sūtīti uz multimodāliem modeļiem. Šī hibrīda pieeja līdzsvaro veiktspēju, precizitāti un ekspluatācijas izmaksas.
Cik precīza ir dokumentu mākslīgā intelekta izmantošana ar attēliem sliktas kvalitātes skenējumos?
Multimodālie modeļi mēdz labāk apstrādāt trokšņainus, zemas izšķirtspējas vai šķībus skenējumus nekā tradicionālie OCR, jo tie izmanto apkārtējo vizuālo kontekstu, lai atšķirtu rakstzīmes. Tomēr ārkārtīgi nekvalitatīvi skenējumi joprojām ir izaicinājums jebkurai sistēmai, un attēlu pirmapstrāde joprojām ir vērtīga neatkarīgi no izvēlētās mākslīgā intelekta pieejas.
Kādas prasmes ir nepieciešamas, lai ieviestu katru sistēmas veidu?
Tradicionālajai dokumentu mākslīgajam intelektam parasti ir nepieciešami veidņu izstrādātāji un noteikumu inženieri, kas saprot dokumentu struktūru. Dokumentu mākslīgajam intelektam ar attēliem ir nepieciešami mašīnmācīšanās inženieri un datu zinātnieki, kas var precizēt modeļus un novērtēt rezultātus. Jaunākā pieeja pārceļ pūles no manuālas konfigurēšanas uz datu sagatavošanu un modeļu novērtēšanu.
Spriedums
Izvēlieties dokumentu mākslīgo intelektu ar attēliem, ja jūsu darbplūsmas ietver vizuāli sarežģītus dokumentus, rokrakstu vai pastāvīgi mainīgus izkārtojumus, kur veidņu uzturēšana kļūst par apgrūtinājumu. Pieturieties pie tradicionālajām dokumentu mākslīgā intelekta sistēmām, ja apstrādājat lielu standartizētu, teksta bagātu dokumentu apjomu un vēlaties pārbaudītu, vieglu risinājumu ar paredzamām izmaksām.