Prognozinis modeliavimas realioje aplinkoje ir kontroliuojamuose eksperimentuose
Prognozinis modeliavimas realioje aplinkoje naudoja tiesioginius duomenis, kad prognozuotų rezultatus netvarkingose, nekontroliuojamose situacijose, o kontroliuojami eksperimentai išskiria kintamuosius dirbtinėmis sąlygomis, kad tiksliai nustatytų priežastinius ryšius.
Akcentai
Nuspėjamieji modeliai klesti realaus pasaulio netvarkoje, tačiau rizikuoja tyliai žlugti, kai sąlygos pasikeičia po jais
Kontroliuojami eksperimentai suteikia priežastinį aiškumą, tačiau dažnai žlunga, kai pašalinami iš dirbtinių laboratorinių sąlygų
Replikacijos krizė atskleidė, kiek daug „nusistovėjusių“ eksperimentinių išvadų išgaruoja atidžiau išnagrinėjus
Pirmaujančios organizacijos dabar įpina eksperimentus į realias prognozavimo sistemas, užuot jas traktavusios kaip atskirą veiklą.
Kas yra Prognozinis modeliavimas realioje aplinkoje?
Naudoja istorinius ir tiesioginius duomenis, kad prognozuotų rezultatus dinamiškose, nekontroliuojamose realaus pasaulio situacijose.
Modeliai, apmokyti naudojant realaus pasaulio duomenis, fiksuoja natūralų triukšmą, šališkumą ir klaidinančius kintamuosius, esančius realioje aplinkoje.
Diegimas dažnai atskleidžia našumo pablogėjimą dėl koncepcijos poslinkio ir paskirstymo pokyčių laikui bėgant
Metodai apima laiko eilučių prognozavimą, sustiprintą mokymąsi iš registruotų duomenų ir stebėjimo priežastinio ryšio išvadas
Realaus pasaulio nuspėjamosios sistemos sveikatos priežiūros ir finansų srityse turi susidoroti su trūkstamais duomenimis, atrankos šališkumu ir etiniais apribojimais
Tarp žinomų nesėkmių yra „Google Flu Trends“, kuri 140 % pervertino gripo paplitimą dėl žiniasklaidos nulemtų paieškos elgsenos pokyčių.
Kas yra Kontroliuojami eksperimentai?
Izoliuoja kintamuosius dirbtinai sukurtoje aplinkoje, kad nustatytų aiškius priežasties ir pasekmės ryšius.
Atsitiktinės atrankos būdu kontroliuojami tyrimai (RCT) išlieka auksiniu standartu priežastinio ryšio nustatymui medicinoje ir socialiniuose moksluose.
Laboratoriniai eksperimentai leidžia tiksliai manipuliuoti nepriklausomais kintamaisiais, tuo pačiu išlaikant pastovius trikdančius veiksnius
Psichologijoje ir medicinoje iškilo pakartojamumo krizės, kai kurių tyrimų pakartojamumo rodiklis viršija 50 %.
A/B testavimas technologijų įmonėse yra mastelio keitimu pagrįsta skaitmeninė kontroliuojamo eksperimentavimo forma su milijardais vartotojų.
Išlieka abejonės dėl išorinio validumo – kontroliuojamose aplinkose gautų rezultatų dažnai nepavyksta apibendrinti įvairioms realaus pasaulio populiacijoms.
Palyginimo lentelė
Funkcija
Prognozinis modeliavimas realioje aplinkoje
Kontroliuojami eksperimentai
Pagrindinis tikslas
Prognozuoti būsimus rezultatus ar modelius
Nustatyti priežastinius ryšius
Duomenų aplinka
Triukšminga, nepilna, dinamiškai kintanti
Švarus, pilnas, statiškas tyrimo metu
Apibendrinamumas
Didelis išorinis validumas, mažesnis vidinis validumas
Didelis vidinis galiojimas, mažesnis išorinis galiojimas
Etiniai apribojimai
Dažnai stebimas, reikia mažiau intervencijų
Gali reikėti nutraukti naudingą gydymą
Mastelio keitimas
Gali panaudoti didžiulius esamus duomenų rinkinius
Reikalingas apgalvotas projektavimas ir išteklių paskirstymas
Sutrikimų valdymas
Statistinis koregavimas, dažnai netobulas
Atsitiktinumas pasiskirsto tolygiai
Realaus pasaulio pavyzdys
„Netflix“ rekomendacijų sistema mokosi iš žiūrėjimo įpročių
Klinikinis tyrimas, kuriuo tiriamas vaisto veiksmingumas, palyginti su placebu
Pagrindinė rizika
Modelio nykimas keičiantis sąlygoms
Dirbtiniai rezultatai, kurie neperteikiami už laboratorijos ribų
Išsamus palyginimas
Metodologiniai pagrindai
Prognozinis modeliavimas remiasi mašininiu mokymusi, statistika ir srities patirtimi, siekiant sukurti sistemas, kurios apibendrina praeities modelius. Praktikai sutinka, kad daugeliui pritaikymų pakanka koreliacijos. Tuo tarpu kontroliuojamuose eksperimentuose sąmoningai kuriami dirbtiniai scenarijai, kuriuose priežastinį ryšį galima izoliuoti taikant atsitiktinę atranką ir manipuliavimą. Šių metodų įtampa nėra nauja – Ronaldas Fisheris buvo eksperimentinio dizaino pradininkas žemės ūkyje, o ankstyvieji statistikai diskutavo, ar stebėjimo tyrimai iš tikrųjų gali konkuruoti.
Duomenų kokybė ir prieinamumas
Realaus pasaulio modeliai naudojasi bet kokiais egzistuojančiais duomenimis, dažnai reikalaujančiais sudėtingo išankstinio apdorojimo, kad būtų galima apdoroti trūkstamas vertes, atrankos šališkumą ir matavimo paklaidas. Privalumai yra didžiulis duomenų kiekis ir autentiškumas. Kontroliuojami eksperimentai generuoja savo duomenis, užtikrindami išsamumą ir atitikimą tyrimo klausimui, tačiau tai kainuoja mastą ir natūralumą. Technologijų įmonė gali pasyviai stebėti milijardus vartotojų sąveikų, tačiau atsitiktinių imčių kontroliuojamas tyrimas su dešimčia tūkstančių dalyvių yra didžiulis uždavinys.
Prisitaikymas laikui bėgant
Realioje aplinkoje naudojami modeliai susiduria su koncepcijos dreifu – laipsnišku ar staigiu tikslinių kintamųjų statistinių savybių pokyčiu. Tai, kas prognozavo klientų praradimą praėjusį ketvirtį, gali visiškai žlugti ekonomikos nuosmukio metu. Kontroliuojami eksperimentai paprastai yra momentiniai vertinimai, nors egzistuoja ir išilginiai modeliai. Užbaigti jie neprisitaiko, o informuoja. Dėl to nuspėjamasis modeliavimas labiau tinka nuolatiniams veiklos sprendimams, o eksperimentai geriau padeda atsakyti į vienkartinius strateginius klausimus.
Etiniai ir praktiniai kompromisai
Stebėjimo prognozavimo sistemos gali įtvirtinti istorinius šališkumus samdant, skolinant ir vykdant baudžiamąją teiseną niekam sąmoningai nepakenkdamos. Kontroliuojami eksperimentai kelia skirtingus etinius pavojaus signalus – atsitiktinai atmetant potencialiai naudingą gydymą arba atliekant tiriamųjų darbą su nežinoma rizika. Technologijų įmonės susidūrė su neigiama reakcija dėl neskaidrių eksperimentų, tokių kaip „Facebook“ emocinio užkrato tyrimas, o nuspėjamojo policijos darbo algoritmai sulaukė kritikos dėl esamų skirtumų sustiprinimo.
Integracija ir hibridiniai metodai
Pačios patikimiausios tyrimų programos vis dažniau derina abu metodus. Kvazieksperimentiniai metodai, tokie kaip instrumentiniai kintamieji ir skirtumų skirtumas, suteikia stebėjimo duomenims eksperimentinės logikos. Tuo tarpu „banditų“ algoritmai ir kontekstiniai eksperimentai įtraukia kontroliuojamą atsitiktinumą į tiesiogines prognozavimo sistemas. Tokios įmonės kaip „Netflix“ ir „Spotify“ nuolat atlieka tūkstančius vienu metu atliekamų eksperimentų, o jų rekomendacijų modeliai mokosi iš organinio vartotojų elgesio.
Privalumai ir trūkumai
Prognozinis modeliavimas realioje aplinkoje
Privalumai
+Skalaujama iki didelių duomenų rinkinių
+Prisitaiko prie kintančių sąlygų
+Didelis išorinis validumas
+Mažesnės įgyvendinimo kliūtys
+Nuolatinis tobulėjimas įmanomas
Pasirinkta
−Priežastinis dviprasmiškumas išlieka
−Pažeidžiami koncepcijos poslinkiui
−Įamžina istorinius šališkumus
−Juodosios dėžės neskaidrumo rizika
−Dažni tylūs gedimai
Kontroliuojami eksperimentai
Privalumai
+Aiški priežastinė išvada
+Kartojama metodologija
+Šališkumo mažinimas atsitiktinės atrankos būdu
+Tikslus poveikio įvertinimas
+Stiprus mokslinis pripažinimas
Pasirinkta
−Ribotas išorinis galiojimas
−Išteklių reikalaujantis vykdymas
−Taikomi etiniai apribojimai
−Momentinė nuotrauka, o ne tęstinis vaizdas
−Dažnos replikacijos klaidos
Dažni klaidingi įsitikinimai
Mitas
Prognozavimo modeliai gali nustatyti priežastinį ryšį, jei jie yra pakankamai tikslūs.
Realybė
Didelis prognozavimo tikslumas atskleidžia koreliaciją ir modelį, o ne mechanizmą. Modelis gali puikiai prognozuoti ledų pardavimus, naudodamas skendimo incidentų duomenis, nesukeldamas nė vieno kito. Priežastiniams teiginiams reikalingos papildomos struktūrinės prielaidos arba eksperimentinis patvirtinimas, kurio vien prognozavimas negali suteikti.
Mitas
Kontroliuojami eksperimentai visada yra patikimesni nei stebėjimo tyrimai.
Realybė
Eksperimentų kokybė labai skiriasi. Mažos imtys, publikacijų šališkumas, p-hacking ir abejotina tyrimų praktika pakirto pasitikėjimą ištisomis sritimis. Kai kurie gerai suplanuoti stebėjimo tyrimai su stipriais instrumentais pranoksta neatsargius eksperimentus. Svarbiau nei etiketė – tyrimo plano detalės.
Mitas
Realaus pasaulio duomenys iš esmės yra geresni, nes jie natūralesni.
Realybė
Natūralistiniai duomenys turi visus juos sukūrusių sistemų šališkumus, matavimo klaidas ir istorinius atsitiktinumus. Kartais dirbtinės sąlygos išaiškina tiesas, kurias užgožia stebėjimo triukšmas. Duomenų „natūralumas“ automatiškai nesuteikia mokslinio vertingumo.
Mitas
A/B testai technologijų įmonėse yra lygiaverčiai moksliniams eksperimentams.
Realybė
Nors technologiniai A/B testai vadovaujasi atsitiktinės atrankos logika, jie dažnai teikia pirmenybę trumpalaikiams įsitraukimo rodikliams, o ne vartotojų gerovei, jiems trūksta išankstinės registracijos ir jie susiduria su selektyvia ataskaitų teikimu. Mastelis įspūdingas, tačiau mokslinis griežtumas dažnai neatitinka akademinių standartų.
Mitas
Reikia rinktis tarp prognozavimo ir paaiškinimo.
Realybė
Šiuolaikinis priežastinis mašininis mokymasis vis labiau įveikia šią prarają. Tokie metodai kaip dvigubas mašininis mokymasis, priežastiniai miškai ir tikslinis didžiausios tikimybės įvertinimas siekia tiek nuspėjamojo našumo, tiek pagrįstų priežastinių išvadų. Ši dichotomija yra perdėta.
Mitas
Koncepcijos poslinkis realaus pasaulio prognozavimą daro neįmanomą.
Realybė
Nors ir sudėtinga, poslinkį galima aptikti ir valdyti stebint, perkvalifikuojant gamybos srautus ir naudojant tvirtas modelių architektūras. Daugelis gamybos sistemų efektyviai veikia daugelį metų, tinkamai prižiūrimos. Sunkumai yra susiję su eksploatavimu, o ne su esminiais dalykais.
Dažnai užduodami klausimai
Kas yra nuspėjamasis modeliavimas realioje aplinkoje?
Tai statistinių arba mašininio mokymosi modelių kūrimo praktika, naudojant duomenis, kuriuos generuoja realios, veikiančios sistemos, o ne specialiai sukurtus duomenų rinkinius. Šie modeliai prognozuoja tokius rezultatus kaip klientų praradimas, ligų progresavimas ar įrangos gedimai, veikiant esant visam triukšmui, trūkstamai informacijai ir dinamiškiems pokyčiams, būdingiems tikram veiklos kontekstui.
Kuo kontroliuojami eksperimentai skiriasi nuo natūralių eksperimentų?
Kontroliuojami eksperimentai apima sąmoningą tyrėjų manipuliavimą kintamaisiais, dažnai atsitiktinai priskirdami juos gydymo sąlygoms. Natūralūs eksperimentai išnaudoja realaus pasaulio aplinkybes, kai atsitiktinumas arba kvazi-atsitiktinis kitimas vyksta be tyrėjo įsikišimo, pavyzdžiui, loterijos laimėjimai, politikos pakeitimai ar geografinės ribos. Natūralūs eksperimentai atsisako tam tikros kontrolės, kad padidintų išorinį pagrįstumą.
Kodėl nuspėjamieji modeliai neveikia po diegimo?
Keletas mechanizmų lemia nesėkmę po diegimo. Mokymo duomenys gali neatspindėti būsimų populiacijų. Modelio diegimas gali pakeisti sistemą, kurią jis prognozuoja. Priešiški veikėjai žaidžia nuspėjamas sistemas. Pagrindiniai procesai iš tiesų vystosi. Ir dažnai modelis buvo per daug pritaikytas istorinių duomenų, kurie neišlieka, ypatumams.
Kas lemia kontroliuojamo eksperimento išorinį pagrįstumą?
Išorinis validumas priklauso nuo to, ar rezultatai apibendrinami už konkretaus tyrimo konteksto ribų. Jis gerėja, kai tiriamųjų imtys įvairios, gydymo metodai įgyvendinami realistiškai, aplinka įvairi ir tyrimai kartojami skirtingose populiacijose. Deja, šios savybės dažnai prieštarauja vidiniams validumo kontrolės veiksmams, todėl tenka neišvengiamai susidurti su kompromisu.
Ar mašininis mokymasis gali pakeisti atsitiktinių imčių kontroliuojamus tyrimus?
Nors ne iki galo, tačiau gali juos papildyti, o kartais ir pakeisti. Kai egzistuoja didžiuliai, gausūs stebėjimo duomenų rinkiniai, priežastinio mašininio mokymosi metodai gali apytiksliai padaryti eksperimentines išvadas. Tačiau naujoms intervencijoms, neturinčioms istorinių paralelių, arba kai klaidinanti įtaka yra didelė ir neišmatuota, atsitiktinių imčių kontroliuojami tyrimai (RCT) išlieka būtini. FDA ir kitos reguliavimo institucijos vis dar reikalauja jų vaistų patvirtinimui.
Kas yra koncepcijos dreifas ir kodėl jis svarbus?
Koncepcijos poslinkis įvyksta, kai duomenų generavimo procese laikui bėgant keičiasi įvesties ir išvesties santykis. 2020 m. apmokytas šlamšto filtras 2024 m. gali nepastebėti naujų sukčiavimo apsimetant metodais. Tai svarbu, nes statiniai modeliai tampa vis mažiau tikslūs ir gali būti žalingi, jei priimami sprendimai, pagrįsti pasenusiais modeliais.
Kaip technologijų įmonės naudoja abu metodus kartu?
Tokios įmonės kaip „Google“, „Meta“ ir „Amazon“ atlieka tūkstančius vienu metu atliekamų A/B testų, kad įvertintų produktų pakeitimų priežastinį poveikį, o jų rekomendacijų ir prognozavimo sistemos nuolat mokosi iš organinės vartotojų elgsenos. Eksperimentiniai rezultatai padeda tobulinti modelius; modelio prognozės nustato perspektyvias intervencijas, kurias galima eksperimentiškai patvirtinti. Tai sukuria teigiamą ciklą.
Kokie yra pagrindiniai etiniai klausimai, susiję su nuspėjamuoju modeliavimu?
Be tikslumo, susirūpinimą kelia algoritminis šališkumas prieš saugomas grupes, neskaidrumas, trukdantis paveiktiems asmenims suprasti sprendimus, grįžtamojo ryšio ciklai, kurie sustiprina esamą nelygybę, privatumo pažeidimai renkant duomenis ir žmogaus sprendimų išstūmimas be atskaitomybės mechanizmų.
Kodėl eksperimentiniame moksle yra replikacijos krizė?
Daug veiksnių sutampa: publikacijų šališkumas, pirmenybė teikiama teigiamiems rezultatams, nepakankamai statistiniai tyrimai su išpūstais poveikio dydžiais, lankstūs analizės planai, leidžiantys taikyti p-hacking metodą, nepakankama išankstinė registracija ir skatinimo struktūros, pagal kurias nauji rezultatai yra vertinami labiau nei patvirtinamieji. Krizė ypač opi psichologijos, medicinos ir ikiklinikinių biomedicininių tyrimų srityse.
Kada organizacija turėtų teikti pirmenybę kontroliuojamiems eksperimentams, o ne nuspėjamajam modeliavimui?
Sprendžiant, ar nauja intervencija, politika ar produkto savybė iš tikrųjų duoda norimų rezultatų, pirmenybę teikite eksperimentams, ypač kai intervencijos platus diegimas yra brangus arba rizikingas. Jie yra būtini sprendžiant priežastinius klausimus, kai klaidingo priežastingumo kaina viršija greito diegimo naudą.
Kokie metodai padeda nuspėjamiesiems modeliams susidoroti su realaus pasaulio netvarka?
Tvirti išankstinio apdorojimo srautai, ansambliniai metodai, apsaugantys nuo per didelio pritaikymo, nuolatinis dreifo stebėjimas, srities adaptacijos metodai, priežastinis reguliavimas ir žmogaus atliekama priežiūra – visa tai padeda. Organizacijos vis dažniau investuoja į MLop infrastruktūrą, kad automatizuotų blogėjančio modelio našumo aptikimą ir reagavimą į jį.
Ar yra situacijų, kai stebėjimo duomenys iš tikrųjų yra geresni už eksperimentus?
Taip – kai eksperimentai neįmanomi dėl masto, kainos ar etikos; kai tiriami reti įvykiai, kurių negalima etiškai sukelti; kai istoriniai duomenys apima dešimtmečius, kurių eksperimentai praktiškai negalėjo pakartoti; arba kai tyrimo tikslas yra grynai aprašomasis prognozavimas, o ne priežastinis priskyrimas.
Nuosprendis
Rinkitės nuspėjamąjį modeliavimą realioje aplinkoje, kai jums reikia nuolat prisitaikyti prie kintančių sąlygų ir galite toleruoti tam tikrą priežastinio ryšio neapibrėžtumą. Rinkitės kontroliuojamus eksperimentus, kai svarbiau nustatyti, ar intervencija iš tikrųjų sukelia poveikį, o ne pritaikyti ją prie natūralaus sudėtingumo. Daugumai organizacijų galiausiai reikia abiejų: eksperimentų, kad būtų galima patvirtinti, kas veikia, ir nuspėjamųjų modelių, kad būtų galima tas įžvalgas diegti ir tobulinti dideliu mastu.