наука за данниматематическа теорияанализитеория на вероятностите
Вероятност срещу статистика
Вероятността и статистиката са две страни на една и съща математическа монета, които се занимават с несигурността от противоположни посоки. Докато вероятността предсказва вероятността за бъдещи резултати въз основа на известни модели, статистиката анализира минали данни, за да изгради или провери тези модели, като ефективно работи назад от наблюденията, за да открие основната истина.
Акценти
Вероятността е основата; статистиката е сградата, построена върху нея.
Вероятност от 0,5 е математическо твърдение, докато статистическата средна стойност е наблюдение.
Статистиката обработва „шум“ и отклонения, които се игнорират в чистата теория на вероятностите.
Хазартът разчита на вероятност, докато застрахователните компании разчитат на статистика.
Какво е Вероятност?
Математическото изследване на случайността, което предсказва вероятността за настъпване на определени събития.
Той функционира като дедуктивен процес, преминавайки от общи правила към конкретни резултати.
Изчисленията винаги са ограничени между 0 (невъзможно) и 1 (сигурност).
Предполага се, че параметрите на „популацията“ или системата са вече известни.
Често използва инструменти като пермутации, комбинации и криви на разпределение.
Законът за големите числа свързва теоретичната вероятност с резултатите от реалния свят.
Какво е Статистика?
Науката за събиране, анализиране и интерпретиране на данни за откриване на модели и тенденции.
Това е индуктивен процес, преминаващ от конкретни наблюдения към общи заключения.
Фокусира се върху оценката на неизвестни параметри на популацията, използвайки по-малка извадка.
Включва изчисляване на границите на грешка и нивата на доверие в данните.
Разделя се на два основни клона: описателна и инференциална статистика.
Разчита в голяма степен на почистване на данните и премахване на пристрастия, за да се гарантира точност.
Сравнителна таблица
Функция
Вероятност
Статистика
Посока на логиката
Дедуктивен (модел към данни)
Индуктивен (данни към модел)
Основна цел
Предсказване на бъдещи събития
Обяснение на минали/настоящи данни
Известни обекти
Населението и неговите правила
Пробата и нейните измервания
Неизвестни обекти
Конкретният резултат от едно съдебно дело
Истинските характеристики на населението
Ключов въпрос
Какви са шансовете да се случи „X“?
Какво ни казва „X“ за света?
Зависимост
Независимо от събирането на данни
Изцяло зависимо от качеството на данните
Основен инструмент
Случайни променливи и разпределения
Вземане на проби и тестване на хипотези
Подробно сравнение
Потокът от информация
Мислете за вероятността като за „напреднала“ система, при която започвате с тесте карти и изчислявате вероятността да се падне асо. Статистиката е „назадналана“; получавате купчина изтеглени карти и трябва да определите дали тестето е било манипулирано или справедливо. Единият започва с причината и предсказва следствието, докато другият започва с следствието и търси причината.
Сигурност срещу оценка
Вероятността се занимава с теоретични сигурности; ако зарът е честен, шансът за шестица е математически фиксиран. Статистиката обаче никога не твърди, че е 100% сигурна. Вместо това, статистиците предоставят „доверителни интервали“, признавайки, че макар да вярват, че съществува тенденция, винаги има изчислен марж за грешка или „p-стойност“, която количествено определя потенциала им да грешат.
Популация срещу извадка
В вероятностния анализ приемаме, че знаем всичко за цялата група (популацията), например, че знаем точно колко червени топчета има в буркан. Статистиката се използва, когато бурканът е непрозрачен и твърде голям, за да се преброи. Изваждаме шепа (извадката), разглеждаме ги и използваме тази ограничена информация, за да направим обосновано предположение за всяко топче в буркана.
Преплетена връзка
Невъзможна е съвременна статистика без вероятности. Статистическите тестове, като например определянето дали едно ново лекарство действа по-добре от плацебо, разчитат на вероятностни разпределения, за да се види дали наблюдаваните резултати биха могли да се случат по чиста случайност. Вероятността предоставя теоретичната рамка, докато статистиката предоставя приложението в реалния свят.
Предимства и Недостатъци
Вероятност
Предимства
+Високо прецизна математика
+Абсолютни теоретични правила
+От съществено значение за логиката на изкуствения интелект
+Изчислява риска ясно
Потребителски профил
−Изисква известни входни данни
−Може да бъде прекалено абстрактно
−Чувствителен към предположения
−Не отчита пристрастията
Статистика
Предимства
+Използва доказателства от реалния свят
+Идентифицира скрити тенденции
+Корекции за грешки
+Информира решенията за политики
Потребителски профил
−Отворено за интерпретация
−Корелацията не е причинно-следствена връзка
−Лесно манипулируем
−Изисква големи набори от данни
Често срещани заблуди
Миф
Вероятност и статистика са просто различни имена за едно и също нещо.
Реалност
Те са различни дисциплини. Макар че и двете се занимават със случайността, вероятността е клон на теоретичната математика, докато статистиката е приложна наука, фокусирана върху интерпретацията на данни.
Миф
„Статистическа значимост“ означава, че нещо е 100% доказано.
Реалност
В статистиката нищо не е „доказано“ в абсолютния смисъл. Това просто означава, че е много малко вероятно резултатът да се е случил случайно, обикновено с 5% или 1% вероятност да е случайност.
Миф
„Законът за средните стойности“ означава, че победата е „последваща“ след дълга серия от загуби.
Реалност
Това е заблудата на комарджията. Вероятността гласи, че всяко независимо събитие (като хвърляне на монета) няма спомен за предишното; шансовете остават същите, независимо какво се е случило преди това.
Миф
Повече данни винаги водят до по-добра статистика.
Реалност
Количеството не определя качеството. Ако данните са пристрастни или извадката не е представителна, по-голям набор от данни просто ще ви доведе до по-„уверено“, но неправилно заключение.
Често задавани въпроси
Кой от тях трябва да науча първо за науката за данните?
Започнете с вероятността. Тя предоставя „езика“ и разпределенията (като нормалното разпределение), от които ще се нуждаете, за да разберете как всъщност работят статистическите тестове. Без вероятност, статистиката ще ви се струва просто като запомняне на формули, без да знаете защо функционират.
Каква е разликата между параметър и статистика?
Параметърът е истинска стойност, принадлежаща на цялата популация (като средната височина на всеки човек на Земята). Статистиката е стойност, изчислена от извадка (като средната височина на 100 души, които сте измерили). Използваме статистиката, за да оценим параметъра.
Броенето на карти в блекджек - вероятност или статистика?
Всъщност е и двете. Използвате статистика, за да следите „данните“ (кои карти са изиграни) и след това използвате вероятност, за да изчислите променящите се коефициенти на оставащото тесте. Това е приложение в реално време за актуализиране на модел въз основа на нова информация.
Как вероятността помага при прогнозирането на времето?
Метеоролозите провеждат хиляди симулации, използвайки текущи данни. Ако 700 от 1000 симулации показват дъжд, те отчитат 70% вероятност. Частта „статистика“ включва анализ на десетилетия от минали метеорологични условия, за да се създадат тези симулационни модели.
Какво е „извод“ в статистиката?
Извеждането на заключения е акт на „извеждане на заключения“ или отгатване на характеристиките на голяма група въз основа на малка. Това е мостът, който ни позволява да правим общи твърдения за общественото мнение или медицинската ефикасност, без да тестваме всеки един човек в дадена държава.
Какво означава вероятност 0?
В краен набор от резултати, вероятност 0 означава, че дадено събитие е невъзможно. В непрекъснатата математика обаче (като избирането на точна десетична дроб между 0 и 1), вероятност 0 може технически да се случи, но на практика я наричаме „почти невъзможно“.
Може ли статистиката да се използва за лъжа?
Абсолютно. Чрез избора на пристрастни извадки, визуализирането на данни с подвеждащи скали или игнорирането на „границата на грешката“, хората могат да накарат статистиката да подкрепи почти всяко твърдение. Ето защо разбирането на методологията зад числата е също толкова важно, колкото и самите числа.
Защо „нормалното разпределение“ е толкова важно и в двата случая?
Кривата на камбаната (нормално разпределение) е най-често срещаният модел в природата. В вероятностите тя описва как се групират случайните променливи. В статистиката Централната гранична теорема ни казва, че с увеличаване на броя на пробите, данните ни естествено ще формират тази форма, което позволява много мощни прогнози.
Решение
Използвайте вероятността, когато знаете правилата на играта и искате да предвидите какво ще се случи по-нататък. Преминете към статистиката, когато имате купчина данни и трябва да разберете какви всъщност са тези скрити правила.