agham ng datosteorya ng matematikaanalitikateorya ng probabilidad
Probabilidad vs. Estadistika
Ang probabilidad at estadistika ay dalawang panig ng iisang barya sa matematika, na humaharap sa kawalan ng katiyakan mula sa magkasalungat na direksyon. Bagama't hinuhulaan ng probabilidad ang posibilidad ng mga kinalabasan sa hinaharap batay sa mga kilalang modelo, sinusuri ng mga estadistika ang mga nakaraang datos upang mabuo o mapatunayan ang mga modelong iyon, na epektibong nagtatrabaho pabalik mula sa mga obserbasyon upang mahanap ang pinagbabatayan na katotohanan.
Mga Naka-highlight
Ang probabilidad ang pundasyon; ang estadistika ang gusaling itinayo sa ibabaw nito.
Ang probabilidad na 0.5 ay isang matematikal na pahayag, habang ang statistical mean ay isang obserbasyon.
Ang estadistika ang humahawak sa 'ingay' at mga outlier, na hindi pinapansin sa purong teorya ng probabilidad.
Ang pagsusugal ay umaasa sa probabilidad, habang ang mga kompanya ng seguro ay umaasa sa mga estadistika.
Ano ang Probabilidad?
Ang matematikal na pag-aaral ng pagiging random na humuhula sa posibilidad ng mga partikular na pangyayari.
Ito ay gumaganap bilang isang prosesong deduktibo, na lumilipat mula sa mga pangkalahatang tuntunin patungo sa mga tiyak na resulta.
Ang mga kalkulasyon ay palaging nakatali sa pagitan ng 0 (imposible) at 1 (katiyakan).
Ipinapalagay nito na ang mga parametro ng 'populasyon' o sistema ay alam na.
Karaniwang gumagamit ng mga kagamitan tulad ng mga permutasyon, kombinasyon, at mga kurba ng distribusyon.
Iniuugnay ng Batas ng Malalaking Numero ang teoretikal na probabilidad sa mga resulta sa totoong mundo.
Ano ang Mga istatistika?
Ang agham ng pagkolekta, pagsusuri, at pagbibigay-kahulugan sa datos upang matuklasan ang mga padron at kalakaran.
Ito ay isang prosesong induktibo, na lumilipat mula sa mga tiyak na obserbasyon patungo sa mga pangkalahatang konklusyon.
Nakatuon sa pagtantya ng mga hindi kilalang parametro ng populasyon gamit ang isang mas maliit na sample.
Kabilang dito ang pagkalkula ng mga margin of error at mga antas ng kumpiyansa sa datos.
Nahahati sa dalawang pangunahing sangay: ang deskriptibong estadistika at ang hinuha o inferensyal na estadistika.
Lubos na umaasa sa paglilinis ng datos at pag-aalis ng bias upang matiyak ang katumpakan.
Talahanayang Pagkukumpara
Tampok
Probabilidad
Mga istatistika
Direksyon ng Lohika
Deduktibo (Modelo sa Datos)
Induktibo (Data sa Modelo)
Pangunahing Layunin
Paghula sa mga pangyayari sa hinaharap
Pagpapaliwanag ng datos noong nakaraan/kasalukuyan
Mga Kilalang Entidad
Ang populasyon at ang mga patakaran nito
Ang sample at ang mga sukat nito
Mga Hindi Kilalang Entidad
Ang tiyak na resulta ng isang pagsubok
Ang tunay na katangian ng populasyon
Pangunahing Tanong
Ano ang posibilidad na mangyari ang 'X'?
Ano ang sinasabi sa atin ng 'X' tungkol sa mundo?
Pagdepende
Malaya sa pangongolekta ng datos
Lubos na nakadepende sa kalidad ng datos
Pangunahing Kagamitan
Mga random na baryabol at distribusyon
Pagsample at pagsubok ng hipotesis
Detalyadong Paghahambing
Ang Daloy ng Impormasyon
Isipin ang probabilidad bilang isang 'forward-looking' engine kung saan magsisimula ka sa isang deck ng mga baraha at kakalkulahin ang logro ng pagkuha ng alas. Ang statistics ay 'backward-looking'; bibigyan ka ng isang stack ng mga baraha na nabunot at dapat mong matukoy kung ang deck ay rigged o fair. Ang isa ay magsisimula sa sanhi at huhulaan ang epekto, habang ang isa naman ay magsisimula sa epekto at hahanapin ang sanhi.
Katiyakan vs. Pagtatantya
Ang probabilidad ay tumatalakay sa mga teoretikal na katiyakan; kung ang isang dice ay patas, ang tsansa ng anim ay nakatakda sa matematika. Gayunpaman, ang mga istatistika ay hindi kailanman nag-aangkin ng 100% na katiyakan. Sa halip, ang mga istatistika ay nagbibigay ng 'mga confidence interval,' na inaamin na habang naniniwala sila na mayroong trend, palaging mayroong kinakalkulang margin para sa error o 'p-value' na sumusukat sa kanilang potensyal na maging mali.
Populasyon vs. Sampol
Sa probabilidad, ipinapalagay natin na alam natin ang lahat tungkol sa buong grupo (ang populasyon), tulad ng pag-alam nang eksakto kung ilang pulang marmol ang nasa isang garapon. Ginagamit ang istatistika kapag ang garapon ay malabo at napakalaki para mabilang. Kumukuha tayo ng isang dakot (ang sample), tinitingnan ang mga ito, at ginagamit ang limitadong impormasyong iyon upang makagawa ng matalinong hula tungkol sa bawat marmol sa garapon.
Magkakaugnay na Relasyon
Hindi maaaring magkaroon ng mga modernong estadistika nang walang probabilidad. Ang mga pagsusuring estadistikal, tulad ng pagtukoy kung ang isang bagong gamot ay mas epektibo kaysa sa placebo, ay umaasa sa mga distribusyon ng probabilidad upang makita kung ang mga naobserbahang resulta ay maaaring nangyari sa pamamagitan lamang ng purong pagkakataon. Ang probabilidad ay nagbibigay ng teoretikal na balangkas, habang ang estadistika ay nagbibigay ng aplikasyon sa totoong mundo.
Mga Kalamangan at Kahinaan
Probabilidad
Mga Bentahe
+Napakatumpak na matematika
+Mga ganap na teoretikal na tuntunin
+Mahalaga para sa lohika ng AI
+Malinaw na kinakalkula ang panganib
Nakumpleto
−Nangangailangan ng mga kilalang input
−Maaaring maging labis na abstrakto
−Sensitibo sa mga pagpapalagay
−Hindi isinasaalang-alang ang bias
Mga istatistika
Mga Bentahe
+Gumagamit ng ebidensya mula sa totoong mundo
+Natutukoy ang mga nakatagong uso
+Nagtatama para sa mga pagkakamali
+Nagbibigay-alam sa mga desisyon sa patakaran
Nakumpleto
−Bukas sa interpretasyon
−Ang korelasyon ay hindi sanhi
−Madaling manipulahin
−Nangangailangan ng malalaking dataset
Mga Karaniwang Maling Akala
Alamat
Ang probabilidad at estadistika ay magkaibang tawag lamang sa iisang bagay.
Katotohanan
Magkaibang disiplina ang mga ito. Bagama't pareho silang humahawak sa pagkakataon, ang probabilidad ay isang sangay ng teoretikal na matematika, habang ang estadistika ay isang inilapat na agham na nakatuon sa interpretasyon ng datos.
Alamat
Ang ibig sabihin ng 'statistikal na kahalagahan' ay 100% napatunayan ang isang bagay.
Katotohanan
Sa estadistika, walang "napatunayan" sa ganap na kahulugan. Nangangahulugan lamang ito na ang resulta ay malamang na hindi nangyari nang hindi sinasadya, kadalasan ay may 5% o 1% na posibilidad na ito ay isang aksidente lamang.
Alamat
Ang 'Batas ng mga Karaniwan' ay nangangahulugang ang panalo ay 'dapat' matapos ang mahabang sunod-sunod na pagkatalo.
Katotohanan
Ito ang Gambler's Fallacy. Sinasabi ng probabilidad na ang bawat magkakahiwalay na pangyayari (tulad ng pagpapalit ng barya) ay walang alaala sa nauna; ang mga logro ay nananatiling pareho anuman ang nangyari noon.
Alamat
Ang mas maraming datos ay palaging humahantong sa mas mahusay na mga istatistika.
Katotohanan
Hindi nasusukat ng dami ang kalidad. Kung ang datos ay may kinikilingan o ang sample ay hindi kumakatawan, ang mas malaking dataset ay hahantong lamang sa isang mas 'kumpiyansa' ngunit maling konklusyon.
Mga Madalas Itanong
Alin ang dapat kong unang pag-aralan para sa Data Science?
Magsimula sa probabilidad. Nagbibigay ito ng 'wika' at mga distribusyon (tulad ng Normal Distribution) na kakailanganin mo upang maunawaan kung paano talaga gumagana ang mga istatistikal na pagsubok. Kung walang probabilidad, ang mga istatistika ay magiging parang pagsasaulo lamang ng mga pormula nang hindi alam kung bakit gumagana ang mga ito.
Ano ang pagkakaiba ng isang parameter at isang istatistika?
Ang isang parameter ay isang tunay na halaga na pagmamay-ari ng isang buong populasyon (tulad ng average na taas ng bawat tao sa Mundo). Ang istatistika ay isang halagang kinalkula mula sa isang sample (tulad ng average na taas ng 100 taong iyong sinukat). Ginagamit namin ang istatistika upang tantyahin ang parameter.
Ang pagbibilang ba ng baraha sa Blackjack ay probabilidad o istatistika?
Pareho talaga ito. Gumagamit ka ng mga istatistika upang subaybayan ang 'datos' (kung aling mga baraha ang nalaro na) at pagkatapos ay ginagamit ang probabilidad upang kalkulahin ang nagbabagong logro ng natitirang deck. Ito ay isang real-time na aplikasyon ng pag-update ng isang modelo batay sa bagong impormasyon.
Paano nakakatulong ang probabilidad sa pagtataya ng panahon?
Ang mga meteorologo ay nagsasagawa ng libu-libong simulation gamit ang kasalukuyang datos. Kung 700 sa 1,000 simulation ang nagpapakita ng ulan, nag-uulat sila ng 70% na probabilidad. Ang bahaging 'istatistika' ay kinabibilangan ng pagsusuri ng mga dekada ng nakalipas na panahon upang malikha ang mga modelong simulation na iyon.
Ano ang 'Inference' sa estadistika?
Ang hinuha ay ang kilos ng 'paghinuha' o paghula sa mga katangian ng isang malaking grupo batay sa isang maliit na grupo. Ito ang tulay na nagbibigay-daan sa atin na gumawa ng malawak na mga pahayag tungkol sa opinyon ng publiko o bisa ng medisina nang hindi sinusubok ang bawat tao sa isang bansa.
Ano ang ibig sabihin ng probabilidad na 0?
Sa isang may hangganang hanay ng mga kinalabasan, ang probabilidad na 0 ay nangangahulugan na imposible ang isang pangyayari. Gayunpaman, sa tuluy-tuloy na matematika (tulad ng pagpili ng isang tiyak na eksaktong decimal sa pagitan ng 0 at 1), ang probabilidad na 0 ay maaaring teknikal na mangyari, ngunit tinatawag natin itong 'halos imposible' sa praktikal na kahulugan.
Maaari bang gamitin ang mga istatistika sa pagsisinungaling?
Oo naman. Sa pamamagitan ng pagpili ng mga may kinikilingang sample, pagpapakita ng datos gamit ang mga nakaliligaw na iskala, o pagbalewala sa 'margin of error,' maaaring suportahan ng mga tao ang halos anumang pahayag dahil sa mga istatistika. Kaya naman ang pag-unawa sa metodolohiya sa likod ng mga numero ay kasinghalaga ng mga numero mismo.
Bakit napakahalaga ng 'Normal Distribution' sa pareho?
Ang bell curve (Normal Distribution) ang pinakakaraniwang padron sa kalikasan. Sa probabilidad, inilalarawan nito kung paano nagkakatipon ang mga random variable. Sa estadistika, sinasabi sa atin ng Central Limit Theorem na habang kumukuha tayo ng mas maraming sample, natural na bubuo ang ating datos ng ganitong hugis, na magbibigay-daan para sa napakalakas na mga hula.
Hatol
Gamitin ang probabilidad kapag alam mo ang mga patakaran ng laro at gusto mong hulaan kung ano ang susunod na mangyayari. Lumipat sa istatistika kapag marami ka nang datos at kailangan mong malaman kung ano talaga ang mga nakatagong patakarang iyon.