datu zinātnematemātikas teorijaanalītikavarbūtību teorija
Varbūtība pret statistiku
Varbūtība un statistika ir vienas matemātiskās monētas divas puses, kas risina pretējus jautājumus par nenoteiktību. Lai gan varbūtības teorija paredz nākotnes iznākumu iespējamību, pamatojoties uz zināmiem modeļiem, statistika analizē pagātnes datus, lai izveidotu vai pārbaudītu šos modeļus, efektīvi strādājot atpakaļejoši no novērojumiem, lai atrastu pamatā esošo patiesību.
Iezīmes
Varbūtība ir pamats; statistika ir ēka, kas uz tās celta.
Varbūtība 0,5 ir matemātisks apgalvojums, savukārt statistiskais vidējais ir novērojums.
Statistika apstrādā “troksni” un novirzes, kas tīrā varbūtību teorijā tiek ignorētas.
Azartspēles balstās uz varbūtību, savukārt apdrošināšanas kompānijas – uz statistiku.
Kas ir Varbūtība?
Matemātiskais nejaušības pētījums, kas paredz noteiktu notikumu rašanās iespējamību.
Tas darbojas kā deduktīvs process, pārejot no vispārīgiem noteikumiem uz konkrētiem rezultātiem.
Aprēķini vienmēr ir saistīti ar vērtību starp 0 (neiespējami) un 1 (noteiktība).
Tas pieņem, ka “populācijas” vai sistēmas parametri jau ir zināmi.
Parasti izmanto tādus rīkus kā permutācijas, kombinācijas un sadalījuma līknes.
Lielo skaitļu likums savieno teorētisko varbūtību ar reālās pasaules rezultātiem.
Kas ir Statistika?
Zinātne par datu vākšanu, analīzi un interpretāciju, lai atklātu modeļus un tendences.
Tas ir induktīvs process, kurā no konkrētiem novērojumiem tiek izdarīti vispārīgi secinājumi.
Koncentrējas uz nezināmu populācijas parametru novērtēšanu, izmantojot mazāku izlasi.
Ietver kļūdu robežu un datu ticamības līmeņu aprēķināšanu.
Sadalīta divās galvenajās nozarēs: aprakstošā statistika un secinošā statistika.
Lai nodrošinātu precizitāti, lielā mērā paļaujas uz datu attīrīšanu un neobjektivitātes novēršanu.
Salīdzinājuma tabula
Funkcija
Varbūtība
Statistika
Loģikas virziens
Deduktīvs (modeļa uz datiem)
Induktīvā (dati modelim)
Galvenais mērķis
Nākotnes notikumu prognozēšana
Pagātnes/pašreizējo datu skaidrošana
Zināmas vienības
Iedzīvotāji un to noteikumi
Paraugs un tā mērījumi
Nezināmas vienības
Konkrētais tiesas procesa rezultāts
Iedzīvotāju patiesās īpašības
Galvenais jautājums
Kāda ir varbūtība, ka notiks "X"?
Ko "X" mums stāsta par pasauli?
Atkarība
Neatkarīgi no datu vākšanas
Pilnībā atkarīgs no datu kvalitātes
Galvenais rīks
Nejaušie mainīgie un sadalījumi
Izlases veidošana un hipotēžu pārbaude
Detalizēts salīdzinājums
Informācijas plūsma
Iedomājieties varbūtību kā "uz nākotni vērstu" dzinēju, kurā jūs sākat ar kāršu kavu un aprēķināt dūza izvilkšanas varbūtību. Statistika ir "atpakaļejoša"; jums tiek izsniegta izvilktu kāršu kaudze, un jums ir jānosaka, vai kava ir bijusi viltota vai godīga. Viens sāk ar cēloni un prognozē sekas, bet otrs sāk ar sekām un meklē cēloni.
Noteiktība pret novērtējumu
Varbūtība attiecas uz teorētisku noteiktību; ja metamais kauliņš ir taisnīgs, sešinieka iespējamība ir matemātiski noteikta. Tomēr statistika nekad nepretendē uz 100% noteiktību. Tā vietā statistiķi sniedz "ticamības intervālus", atzīstot, ka, lai gan viņi uzskata, ka tendence pastāv, vienmēr pastāv aprēķināta kļūdas robeža jeb "p-vērtība", kas kvantificē viņu potenciālu kļūdīties.
Populācija pret izlasi
Varbūtības aprēķinā mēs pieņemam, ka zinām visu par visu grupu (populāciju), piemēram, precīzi zinām, cik sarkano bumbiņu ir burkā. Statistika tiek izmantota, ja burka ir necaurspīdīga un pārāk liela, lai tās saskaitītu. Mēs izņemam sauju (izlasi), aplūkojam tās un izmantojam šo ierobežoto informāciju, lai izdarītu pamatotu minējumu par katru bumbiņu burkā.
Savītās attiecības
Mūsdienu statistika nav iespējama bez varbūtības teorijas. Statistikas testi, piemēram, lai noteiktu, vai jaunas zāles darbojas labāk nekā placebo, balstās uz varbūtības sadalījumiem, lai noskaidrotu, vai novērotie rezultāti varēja būt radušies tīras nejaušības dēļ. Varbūtība nodrošina teorētisko pamatu, savukārt statistika nodrošina reālās pasaules pielietojumu.
Priekšrocības un trūkumi
Varbūtība
Iepriekšējumi
+Ļoti precīza matemātika
+Absolūtie teorētiskie noteikumi
+Būtiski mākslīgā intelekta loģikai
+Skaidri aprēķina risku
Ievietots
−Nepieciešamas zināmas ievades
−Var būt pārāk abstrakts
−Jūtīgi pret pieņēmumiem
−Neņem vērā aizspriedumus
Statistika
Iepriekšējumi
+Izmanto reālās pasaules pierādījumus
+Identificē slēptās tendences
+Izlabo kļūdas
+Informē politikas lēmumus
Ievietots
−Atvērts interpretācijai
−Korelācija nav cēloņsakarība
−Viegli manipulējams
−Nepieciešami lieli datu kopumi
Biežas maldības
Mīts
Varbūtība un statistika ir tikai dažādi nosaukumi vienai un tai pašai lietai.
Realitāte
Tās ir atšķirīgas disciplīnas. Lai gan abas pēta nejaušības, varbūtība ir teorētiskās matemātikas nozare, savukārt statistika ir lietišķā zinātne, kas koncentrējas uz datu interpretāciju.
Mīts
“Statistiskā nozīmība” nozīmē, ka kaut kas ir 100% pierādīts.
Realitāte
Statistikā nekas nav “pierādīts” absolūtā nozīmē. Tas vienkārši nozīmē, ka ir ļoti maz ticams, ka rezultāts ir radies nejauši, parasti ar 5% vai 1% iespējamību, ka tas ir sagadīšanās.
Mīts
"Vidējo rādītāju likums" nozīmē, ka uzvara ir "pienākusies" pēc ilgas zaudējumu sērijas.
Realitāte
Šī ir spēlmaņa kļūda. Varbūtības teorija apgalvo, ka katram neatkarīgajam notikumam (piemēram, monētas mešanai) nav atmiņu par iepriekšējo; izredzes paliek nemainīgas neatkarīgi no tā, kas notika iepriekš.
Mīts
Vairāk datu vienmēr nodrošina labāku statistiku.
Realitāte
Kvantitāte nenosaka kvalitāti. Ja dati ir neobjektīvi vai izlase nav reprezentatīva, lielāks datu kopums vienkārši novedīs pie "pārliecinātāka", bet nepareiza secinājuma.
Bieži uzdotie jautājumi
Kuru datu zinātnē man vajadzētu apgūt vispirms?
Sāciet ar varbūtību. Tā nodrošina “valodu” un sadalījumus (piemēram, normālo sadalījumu), kas jums būs nepieciešami, lai saprastu, kā statistikas testi faktiski darbojas. Bez varbūtības statistika šķitīs tikai kā formulu iegaumēšana, nezinot, kāpēc tās darbojas.
Kāda ir atšķirība starp parametru un statistiku?
Parametrs ir patiesa vērtība, kas pieder visai populācijai (piemēram, katra Zemes cilvēka vidējais augums). Statistika ir vērtība, kas aprēķināta no izlases (piemēram, 100 cilvēku vidējais augums, ko izmērījāt). Mēs izmantojam statistiku, lai novērtētu parametru.
Vai kāršu skaitīšana ir blekdžeka varbūtība vai statistika?
Patiesībā tā ir abējāda. Jūs izmantojat statistiku, lai sekotu līdzi "datiem" (kuras kārtis ir izspēlētas), un pēc tam izmantojat varbūtību, lai aprēķinātu atlikušās kavas mainīgās izredzes. Tā ir reāllaika lietojumprogramma, kas atjaunina modeli, pamatojoties uz jaunu informāciju.
Kā varbūtība palīdz laika prognozēšanā?
Meteorologi veic tūkstošiem simulāciju, izmantojot pašreizējos datus. Ja 700 no 1000 simulācijām uzrāda lietu, viņi ziņo par 70% varbūtību. "Statistikas" daļa ietvēra iepriekšējo gadu desmitu laika apstākļu analīzi, lai sākotnēji izveidotu šos simulācijas modeļus.
Kas ir "secinājums" statistikā?
Secināšana ir lielas grupas īpašību "secināšana" vai minēšana, pamatojoties uz mazas grupas īpašībām. Tas ir tilts, kas ļauj mums izteikt plašus apgalvojumus par sabiedrisko domu vai medicīnisko efektivitāti, nepārbaudot katru atsevišķu cilvēku valstī.
Ko nozīmē varbūtība 0?
Galīgā iznākumu kopā varbūtība 0 nozīmē, ka notikums nav iespējams. Tomēr nepārtrauktā matemātikā (piemēram, izvēloties konkrētu precīzu decimāldaļu starp 0 un 1) varbūtība 0 tehniski var notikt, bet praktiski mēs to saucam par "gandrīz neiespējamu".
Vai statistiku var izmantot melošanai?
Pilnīgi piekrītu. Izvēloties neobjektīvus paraugus, vizualizējot datus ar maldinošām skalām vai ignorējot "kļūdas robežu", cilvēki var panākt, lai statistika pamatotu gandrīz jebkuru apgalvojumu. Tāpēc izpratne par skaitļu metodoloģiju ir tikpat svarīga kā paši skaitļi.
Kāpēc “normālais sadalījums” ir tik svarīgs abos?
Zvana līkne (normālsadalījums) ir visizplatītākais modelis dabā. Varbūtību teorijā tā apraksta, kā nejaušie mainīgie grupējas. Statistikā centrālā robežteorēma mums norāda, ka, ņemot vairāk paraugu, mūsu dati dabiski veidos šo formu, ļaujot veikt ļoti spēcīgas prognozes.
Spriedums
Izmantojiet varbūtības teoriju, ja zināt spēles noteikumus un vēlaties paredzēt, kas notiks tālāk. Pārejiet uz statistiku, ja jums ir daudz datu un ir jānoskaidro, kādi īsti ir šie slēptie noteikumi.