Question 1

데이터 과학을 배우려면 어떤 과목부터 먼저 배우는 게 좋을까요?

Accepted Answer

확률론부터 시작하세요. 확률론은 통계적 검정이 실제로 어떻게 작동하는지 이해하는 데 필요한 '언어'와 분포(예: 정규 분포)를 제공합니다. 확률론을 모르면 통계는 원리를 이해하지 못한 채 공식을 암기하는 것에 불과하게 느껴질 것입니다.

Question 2

모수와 통계량의 차이점은 무엇인가요?

Accepted Answer

모수란 전체 모집단에 속하는 참값입니다(예: 지구상의 모든 사람의 평균 키). 통계량은 표본에서 계산된 값입니다(예: 측정한 100명의 평균 키). 우리는 이 통계량을 이용하여 모수를 추정합니다.

Question 3

블랙잭에서 카드 카운팅은 확률일까요, 통계일까요?

Accepted Answer

사실 둘 다 맞습니다. 통계를 사용하여 '데이터'(어떤 카드가 사용되었는지)를 추적하고, 확률을 사용하여 남은 카드 덱의 변화하는 확률을 계산합니다. 새로운 정보에 따라 모델을 실시간으로 업데이트하는 방식입니다.

Question 4

확률은 일기 예보에 어떻게 도움이 될까요?

Accepted Answer

기상학자들은 현재 데이터를 사용하여 수천 건의 시뮬레이션을 실행합니다. 1,000번의 시뮬레이션 중 700번에서 비가 온다고 나오면 70%의 확률이라고 보고합니다. 여기서 '통계'란 애초에 이러한 시뮬레이션 모델을 만들기 위해 수십 년간의 과거 날씨 데이터를 분석하는 과정을 포함합니다.

Question 5

통계학에서 '추론'이란 무엇인가요?

Accepted Answer

추론이란 소규모 집단을 바탕으로 대규모 집단의 특성을 '추론'하거나 추측하는 행위입니다. 이는 한 국가의 모든 사람을 일일이 검사하지 않고도 여론이나 의학적 효능에 대해 광범위한 주장을 펼칠 수 있게 해주는 연결고리입니다.

Question 6

확률이 0이라는 것은 무엇을 의미합니까?

Accepted Answer

유한한 결과 집합에서 확률이 0이라는 것은 어떤 사건이 발생할 수 없다는 것을 의미합니다. 하지만 연속적인 수학(예를 들어 0과 1 사이의 특정 소수점을 정확하게 선택하는 경우)에서는 확률이 0인 경우가 이론적으로는 발생할 수 있지만, 실제적인 의미에서는 '거의 불가능하다'라고 부릅니다.

Question 7

통계를 이용해 거짓말을 할 수 있을까요?

Accepted Answer

맞습니다. 편향된 표본을 선택하거나, 오해의 소지가 있는 척도로 데이터를 시각화하거나, '오차 범위'를 무시하면 사람들은 거의 모든 주장을 뒷받침하는 통계를 만들어낼 수 있습니다. 그렇기 때문에 수치 자체만큼이나 통계 자료의 방법론을 이해하는 것이 중요합니다.

Question 8

두 경우 모두에서 '정규 분포'가 왜 그렇게 중요한가요?

Accepted Answer

종형 곡선(정규 분포)은 자연에서 가장 흔하게 볼 수 있는 패턴입니다. 확률론에서는 확률 변수들이 어떻게 군집을 이루는지 설명합니다. 통계학에서는 중심극한정리에 따라 표본을 더 많이 추출할수록 데이터가 자연스럽게 이 형태를 띠게 되며, 이를 통해 매우 강력한 예측이 가능해집니다.

기능	개연성	통계
논리의 방향	연역적 접근법 (모델에서 데이터로)	귀납적 접근 방식 (데이터에서 모델로)
주요 목표	미래 사건 예측	과거/현재 데이터 설명
알려진 개체	인구와 그 규칙	시료 및 측정값
미확인 개체	재판의 구체적인 결과	인구의 진정한 특성
핵심 질문	'X'가 발생할 확률은 얼마나 될까요?	'X'는 세상에 대해 무엇을 알려줍니까?
의존	데이터 수집과 무관하게	데이터 품질에 전적으로 의존합니다.
핵심 도구	확률변수와 분포	표본 추출 및 가설 검정

확률 vs 통계

주요 내용

개연성이(가) 무엇인가요?

통계이(가) 무엇인가요?

비교 표

상세 비교

정보의 흐름

확실성 vs. 추정

모집단 vs. 표본

얽히고설킨 관계

장단점

개연성

장점

구독

통계

장점

구독

흔한 오해

자주 묻는 질문

평결

관련 비교 항목

각도 vs 기울기

결정인자와 추적자

극한 vs 연속성

근의 공식과 인수분해 방법의 차이점

기능 vs 관계