Tikimybiniai reitingavimo modeliai ir deterministiniai reitingavimo modeliai
Tikimybiniai reitingavimo modeliai naudoja neapibrėžtumą ir tikimybių skirstinius elementams reitinguoti, o deterministiniai reitingavimo modeliai vadovaujasi fiksuotomis, nuspėjamomis taisyklėmis, kurios sukuria identiškus rezultatus esant identiškiems įvesties duomenims.
Akcentai
Tikimybiniai modeliai atskleidžia reitingavimo patikimumą, sudarydami sąlygas geresnei žmonių priežiūrai ir saugesniems automatizuotiems sprendimams didelės rizikos srityse.
Deterministiniai modeliai garantuoja identiškus rezultatus visuose bandymuose, supaprastindami derinimą ir atitikdami reguliavimo atkuriamumo reikalavimus.
Tikimybiniai metodai natūraliai palaiko tyrinėjimą rekomendacijose ir reklamoje be atskirų tyrinėjimo mechanizmų.
Deterministiniai metodai išlaiko dominuojančius delsos pranašumus, dažnai veikdami vienženkliu milisekundžių skaičiumi, kai atranka būtų pernelyg sudėtinga.
Kas yra Tikimybiniai reitingavimo modeliai?
Reitingavimo sistemos, kurios apima neapibrėžtumą ir tikimybę, kad būtų gauti sutvarkyti rezultatai.
Išvesties tikimybių skirstiniai, o ne fiksuoti balai, leidžiantys kiekvienam reitingavimo sprendimui taikyti pasikliautinuosius intervalus
Dažniausiai naudojamas Bajeso metoduose, neuroniniuose reitingavimo modeliuose su iškritimu ir Monte Karlo atrankos metoduose
Natūraliai tvarkykite trūkstamus duomenis ir retas funkcijas, marginalizuodami nežinomus kintamuosius
Įgalinkite tyrinėjimą rekomendacijų sistemose naudodami tokius mechanizmus kaip Thompsono atranka
Reikalauja daugiau skaičiavimo išteklių dėl atrankos ar variacinės išvados, tačiau užtikrina išsamesnį neapibrėžtumo kiekybinį įvertinimą
Kas yra Deterministiniai reitingavimo modeliai?
Reitingavimo sistemos, kurios pateikia nuoseklius, taisyklėmis pagrįstus rezultatus be atsitiktinumo ar neapibrėžtumo.
Visada grąžinkite identiškus reitingus esant identiškiems įvesties duomenims, užtikrindami visišką atkuriamumą ir nuspėjamumą
Sukurti klasikinės informacijos paieškos pagrindus, įskaitant BM25, TF-IDF ir tradicinius mokymosi ranguoti algoritmus
Paprastai greitesnis išvados darymo metu, nes nereikia imties ėmimo ar tikimybių sklaidos
Trūksta integruoto neapibrėžtumo įvertinimo, todėl jie linkę pernelyg užtikrintai prognozuoti užklausas, nesusijusias su paskirstymu
Plačiai naudojama gamybinėse paieškos sistemose, kur nuoseklumas ir paaiškinamumas yra svarbiausi reikalavimai
Palyginimo lentelė
Funkcija
Tikimybiniai reitingavimo modeliai
Deterministiniai reitingavimo modeliai
Išvesties pobūdis
Tikimybių pasiskirstymas pagal rangus
Vienas fiksuotas reitingas
Atkuriamumas
Stochastinis; gali skirtis priklausomai nuo ciklo
Visiškai atkartojama
Neapibrėžtumo valdymas
Aiškūs pasitikėjimo balai
Nėra; tik taškiniai įverčiai
Skaičiavimo kaina
Didesnis; atrankos arba išvadų pridėtinės išlaidos
Tikimybiniai reitingavimo modeliai aktualumą ir reitingavimą traktuoja kaip iš esmės neapibrėžtus, remdamiesi tikimybių teorija ir statistinėmis išvadomis. Šie metodai modeliuoja tikimybę, kad vienas elementas bus reitinguojamas aukščiau kito, dažnai naudodami tokias sistemas kaip Plackett-Luce modelis arba Bajeso neuroniniai tinklai. Deterministiniai modeliai, priešingai, daro prielaidą, kad egzistuoja vienas „teisingas“ reitingavimas, ir tiesiogiai optimizuoja pagal tą fiksuotą rezultatą, naudodami vertinimo funkcijas arba marža pagrįstus tikslus.
Nuoseklumas ir nuspėjamumas
Kai deterministinį modelį paleidžiate du kartus su identiškais duomenimis, gaunate identiškus rezultatus – tai didžiulis pranašumas derinimo, auditavimo ir vartotojų pasitikėjimo srityse. Tikimybiniai modeliai įveda tyčinį kintamumą, kuris gali nuvilti vartotojus, tikintis stabilių paieškos rezultatų, bet iš tikrųjų yra naudingas tokiems scenarijams kaip rekomendacijų įvairovė ir eksperimentavimas internete. Daugelis gamybinių sistemų taiko hibridinį metodą: deterministinį bazinį reitingavimą su tikimybiniu perreitingavimu tyrinėjimui.
Neapibrėžtumo kiekybinis įvertinimas
Žinojimas, kad modelis yra „neaiškus“ dėl reitingo, gali būti toks pat vertingas, kaip ir pats reitingas. Tikimybiniai modeliai natūraliai atskleidžia spėliones, kai spėja tarp beveik lygiaverčių elementų, sudarydami sąlygas žmogui prižiūrėti arba konservatyviai priimti sprendimus. Deterministiniai modeliai tokio signalo nesiūlo; 0,78 ir 0,79 balai atrodo reikšmingai skirtingi, net jei statistiškai nesiskiria, o tai gali klaidinti tolesnes programas.
Skaičiavimo ir operaciniai kompromisai
Tikimybės elegancija turi realių išlaidų. Imčių ėmimu pagrįsti tikimybiniai metodai gerokai sulėtina išvadų darymą, todėl apsunkina diegimą žiniatinklio mastu. Deterministiniai modeliai, ypač apversti indeksais pagrįsti metodai, tokie kaip BM25, per dešimtmečius buvo optimizuoti milisekundžių lygio delsai. Šiuolaikiniai aproksimacijos, tokios kaip variacinė išvada ir distiliacija, mažina šį atotrūkį, tačiau deterministiniai metodai vis dar dominuoja delsai jautriose programose.
Prisitaikymas prie retų ir triukšmingų duomenų
Tikimybiniai modeliai puikiai tinka, kai duomenų trūksta arba jie yra triukšmingi, nes jie gali integruoti ankstesnius rodiklius ir skleisti neapibrėžtumą, o ne įsipareigoti trapiems taškiniams įverčiams. Naujas produktas, turintis tris apžvalgas, gali gauti konservatyvų reitingą su plačiais pasikliautinaisiais intervalais, o ne būti paslėptas ar dirbtinai padidintas. Deterministiniams modeliams paprastai reikia daugiau duomenų arba kruopštaus reguliarizavimo, kad būtų išvengta per didelio pritaikymo šiuose režimuose.
Privalumai ir trūkumai
Tikimybiniai reitingavimo modeliai
Privalumai
+Neapibrėžtumo kiekybinis įvertinimas
+Gamtos tyrinėjimas
+Tvarko negausius duomenis
+Sodresni išėjimo signalai
+Atsparus triukšmui
Pasirinkta
−Didesnė išvados kaina
−Neatkuriami rezultatai
−Sudėtingas derinimas
−Statesnė kompetencijos kreivė
−Diegimo sudėtingumas
Deterministiniai reitingavimo modeliai
Privalumai
+Greitas išvadas
+Visiškai atkartojama
+Paprastesnis derinimas
+Brandūs įrankiai
+Mažesnis delsos laikas
Pasirinkta
−Nėra neapibrėžtumo signalo
−Pernelyg pasitikinčios prognozės
−Reikalingas išorinis tyrinėjimas
−Trapus su mažais duomenimis
−Ribotos įžvalgos apie reitingavimą
Dažni klaidingi įsitikinimai
Mitas
Tikimybiniai reitingavimo modeliai yra tiesiog deterministiniai modeliai su atsitiktiniu triukšmu.
Realybė
Tikrieji tikimybiniai modeliai iš esmės atspindi savo parametrų ir prognozių neapibrėžtumą, o ne tik įterpia atsitiktinumą. Modelis su neapibrėžtumo įvertinimo iškritimu iš esmės skiriasi nuo deterministinio modelio su post-hoc atsitiktine atranka, nes pirmasis fiksuoja episteminį neapibrėžtumą dėl paties aktualumo.
Mitas
Deterministiniai modeliai visiškai negali susidoroti su neapibrėžtumu.
Realybė
Nors deterministiniai modeliai neapibrėžtumo neatspindi viduje, praktikai dažnai jį apytiksliai įvertina taikydami ansamblio nesutarimus, kalibravimo metodus arba atskirus pasitikėjimo modelius. Tai yra priedai, o ne vietinės galimybės, ir jie paprastai prastesni už integruotus tikimybinius metodus.
Mitas
Tikimybiniai modeliai yra per lėti produkcijos paieškai.
Realybė
Nors naivūs imčių įgyvendinimai iš tiesų yra lėti, šiuolaikinės variacinės aproksimacijos, Monte Karlo iškritimas ir distiliavimo metodai leido tikimybines išvadas padaryti įmanomomis dideliu mastu. Kelios didelės technologijų įmonės dabar diegia tikimybinius komponentus delsos jautrumo reitingavimo srautuose.
Mitas
Deterministiniai reitingai visada yra geresni už vartotojų pasitikėjimą.
Realybė
Vartotojai iš tikrųjų gauna naudos iš kontroliuojamo rekomendacijų ir tyrinėjimo kontekstų kintamumo, kai pakartotinai matant identiškus rezultatus atsiranda filtro burbulai. Svarbiausia yra suderinti stabilumo lūkesčius – stabilumą naršymo užklausoms ir kintamumą atradimo užduotims.
Mitas
Vienas požiūris yra visuotinai pranašesnis už kitą.
Realybė
Pirmaujančios sistemos vis dažniau derina abu metodus: deterministinį kandidatų generavimą, po kurio seka tikimybinis perkvalifikavimas, arba tikimybinį mokymą neprisijungus prie interneto su deterministiniu diegimu. Ši dichotomija labiau susijusi su projektavimo pasirinkimais, o ne su skirtingų kompromisų paveldėjimu, o ne su esminiu pranašumu.
Dažnai užduodami klausimai
Kuo skiriasi tikimybiniai ir deterministiniai reitingavimo modeliai?
Pagrindinis skirtumas yra tai, kaip jie pateikia rezultatus. Tikimybiniai modeliai generuoja tikimybių skirstinius pagal galimus reitingus, aiškiai užkoduodami neapibrėžtumą dėl to, kuris elementas turėtų būti rodomas pirmas. Deterministiniai modeliai sukuria vieną, fiksuotą eiliškumą – esant toms pačioms įvestims, visada matysite identiškus rezultatus. Įsivaizduokite tai kaip skirtumą tarp teiginio „elementas A tikriausiai yra geresnis už B su 70 % patikimumu“ ir „elementas A yra aukštesnio reitingo nei B, taškas“.
Kada turėčiau naudoti tikimybinį reitingavimo modelį?
Tikimybinius metodus naudokite, kai pats neapibrėžtumas suteikia veiksmingos informacijos. Medicininės literatūros paieška, finansinių dokumentų paieška ir ankstyvosios stadijos rekomendacijų sistemos gauna naudos iš žinojimo, kada modelis spėlioja. Jos taip pat būtinos, kai norite integruoto tyrimo – leisti sistemai retkarčiais išbandyti žemesnio reitingo elementus, kad sužinotų naudotojų pageidavimus – nekuriant atskiros A/B testavimo infrastruktūros.
Ar deterministiniai modeliai šiuolaikiniame dirbtiniame intelekte yra visiškai pasenę?
Visai ne. Deterministiniai modeliai, tokie kaip BM25 ir išmoktas retas paieškos metodas, išlieka gamybinės paieškos pagrindiniais įrankiais. Jų nuspėjamumas, greitis ir interpretuojamumas atitinka reguliavimo ir veikimo reikalavimus, su kuriais tikimybiniai modeliai susiduria sunkiai. Net ir pažangiausios neuroninės sistemos dažnai naudoja deterministinius mokymo tikslus, net jei architektūra turi tikimybinių elementų.
Kaip tikimybiniai modeliai sprendžia šaltojo užvedimo problemą?
Užuot privertę spėti reitingą, tikimybiniai modeliai gali išreikšti didelį neapibrėžtumą naujiems elementams, paskatindami konservatyvų išdėstymą arba žmogaus peržiūrą. Bajeso metodai konkrečiai apima išankstinius įsitikinimus, pvz., „naujus produktus, apie kuriuos mažai atsiliepimų, reikėtų vertinti atsargiai“, kurie automatiškai sureguliuoja reitingus. Deterministiniams modeliams paprastai reikia rankinio įsikišimo arba euristinių taisyklių, kad būtų pasiektas panašus elgesys.
Ar deterministiniai modeliai kada nors gali būti pritaikyti neapibrėžtumui išreikšti?
Taip, bet netiesiogiai. Tokie metodai kaip modelių ansambliai, temperatūros mastelio keitimas arba atskirų patikimumo įverčių mokymas gali apytiksliai įvertinti neapibrėžtumą. Tačiau tai labiau post-hoc pataisymai, o ne vietinės galimybės. Neapibrėžtumo įverčiai paprastai yra mažiau kalibruoti nei gauti iš tikrai tikimybinių sistemų, ir jie prideda sudėtingumo, kuris iš dalies panaikina deterministinių metodų paprastumo pranašumą.
Kokie yra konkretūs tikimybinio reitingavimo algoritmų pavyzdžiai?
Plackett-Luce modelis ir jo plėtiniai aiškiai modeliuoja reitingavimą kaip tikimybinį procesą. Bajeso neuroniniai ranguotojai pateikia skirstinius pagal tinklo svorius. Monte Karlo iškritimas, iš pradžių skirtas klasifikavimui, buvo pritaikytas reitingavimo neapibrėžtumui. Visai neseniai difuzijos pagrindu sukurti reitingavimo modeliai ir neuroniniai procesai tikimybinį samprotavimą perkėlė į giliojo mokymosi pagrindu veikiančią paiešką.
Kodėl dauguma komercinių paieškos sistemų naudoja deterministinį reitingavimą?
Gamybos apribojimai labai skatina determinizmą. Kai milijardams užklausų reikia atsakymų per mažiau nei 100 milisekundžių, sunku pateisinti skaičiavimo sąnaudas, susijusias su imčių ėmimu. Be to, įmonėms reikia atkartojamų rezultatų derinimui, A/B testavimui ir atitikčiai reglamentams. Paieškos sistema, atnaujinant rodanti skirtingus rezultatus tam pačiam vartotojui, susidurtų su dideliais pasitikėjimo iššūkiais be kruopštaus UX dizaino.
Ar įmanoma abu metodus sujungti vienoje sistemoje?
Be abejo, ir ši hibridinė architektūra tampa vis labiau paplitusi. Deterministinis modelis gali tvarkyti pradinį kandidatų paiešką – greitai, keičiamo dydžio, atkartojamai, – o tikimybinis modelis iš naujo įvertina geriausius kandidatus, pridėdamas neapibrėžtumo įvertinančius sprendimus, kur leidžia delsa. Tai apjungia geriausias abiejų savybes: greitį dideliu mastu ir sudėtingumą ten, kur to reikia.
Kuo skiriasi šių dviejų modelių tipų mokymai?
Deterministiniai modeliai paprastai optimizuoja taškinius, porinius arba sąrašinius tikslus, kurie tiesiogiai baudžia už reitingavimo klaidas. Tikimybiniai modeliai maksimaliai padidina tikimybę pagal tikimybių pasiskirstymą, o tai gali apimti sudėtingesnes išvadų procedūras, tokias kaip variaciniai metodai arba imčių ėmimas. Tikimybinių modelių mokymo tikslas natūraliai sureguliuojamas per ankstesnįjį, o deterministiniams modeliams reikia aiškių reguliavimo terminų.
Kokių įgūdžių reikia komandoms, norint palaikyti tikimybines reitingavimo sistemas?
Be standartinės mašininio mokymosi inžinerijos, tikimybinėms sistemoms reikalingi tvirtesni statistiniai pagrindai – Bajeso išvadų supratimas, imčių ėmimo metodai ir tikimybinis programavimas. Komandoms taip pat reikalingas patikimas kalibravimo stebėjimas: užtikrinant, kad nurodytos tikimybės atitiktų stebimus dažnius. Deterministinės sistemos paprastai yra labiau prieinamos inžinieriams, turintiems įprastą programinę įrangą ir mašininio mokymosi patirtį.
Nuosprendis
Rinkitės deterministinius reitingavimo modelius, kai svarbiausia yra nuoseklumas, greitis ir interpretuojamumas – čia tinka dauguma tradicinių paieškos ir įmonių duomenų paieškos scenarijų. Rinkitės tikimybinius metodus, kai jums reikia priimti sprendimus atsižvelgiant į neapibrėžtumą, aktyviai tyrinėti duomenis arba dirbti duomenų trūkumo srityse, kur reitingavimo patikimumas yra toks pat svarbus kaip ir pats reitingavimas.