모분산 추론
- 모집단의 분산을 직접 알 수 없을 때 표본을 이용해 추정하고 검정하는 과정
- 단일 모분산 검정 : 모분산이 특정 값과 다른지, 두 집단의 분산이 같은지 등을 가설검정으로 확인 (카이제곱 분포)

- 두 모집단 분산 비교 (F-검정)

점추정
- 모수(예: 모집단 평균, 분산 등)를 하나의 숫자로 추정하는 방법
- 간단하고 직관적이지만, 불확실성을 표현하지 못한다.
구간추정
- 모수를 하나의 값이 아니라 범위(구간)로 추정하고, 이 구간 안에 모수가 존재할 확률을 제시하는 방법
- 불확실성을 정량적으로 표현
표본오차 (Sampling Error)
- 표본조사에서 모집단 전체가 아닌 일부만 조사했기 때문에 발생하는 오차
- 표본 통계량(ex. 표본평균)이 모집단 모수(ex. 모집단 평균)와 차이가 나는 것
- 표본 크기를 늘리면 감소 (n ↑ → 표본오차 ↓)
- 무작위 표본추출을 제대로 했다면 편향(bias)은 없음
- 전국 성인 남성 키 평균을 조사할 때 100명만 조사하면, 전체 모집단 평균과 차이가 날 수 있음
표본편의 (Sampling Bias)
- 표본을 뽑는 과정에서 특정 성향이 과대 또는 과소 대표되는 것 때문에 생기는 오차
- 표본추출 과정에서 특정 대상에 비해 우선적으로 추출될 때 생기는 오차
- 표본이 모집단을 제대로 대표하지 못할 때 발생
- 표본이 편향되므로, 표본오차와 달리 표본 크기를 늘려도 사라지지 않음
- 설계 단계에서 주의 필요
- 온라인 설문조사에서 젊은 층이 많이 참여 → 연령 분포가 실제 모집단과 다름
- 전화조사에서 등록되지 않은 사람 제외 → 특정 계층 누락
* 확률표집으로 줄일 수 있음 (통계 모형 추론 방법으로 최소화)
확률표집 (Probability Sampling)
- 모집단의 각 구성원이 표본으로 선택될 확률이 알려져 있는 표집 방법
- 확률화 : 모집단으로부터 편의되지 않은 표본을 추출하는 절차
- 확률표본(random sample) : 확률화 절차에 의해 추출된 표본
- 표본이 모집단을 대표하도록 보장
- 표본편의를 줄이고, 통계적 추정의 정확성을 높임
- 모든 모집단 구성원이 0보다 큰 선택 확률을 가져야 하며, 선택 과정이 임의(random)적이어야 한다.
비표본오차 (Non-sampling Error)
- 표본추출 과정과 무관하게 발생하는 모든 오차를 의미
- 표본오차를 제외한 모든 오차
- 조사대상이 증가하면 오차가 커짐
- 질문 작성, 응답자, 조사원 등에 의해 발생
합동표본분산 (pooled sample variance)
- 두 개 이상의 모집단에서 분산이 같다고 가정할 때, 여러 표본의 분산을 합쳐서 하나의 공통 분산 추정치를 만드는 방법
- 각 표본 분산에 자유도를 곱한 뒤 합하고, 전체 자유도로 나눈 것
- 두 표본의 분산 정보를 합쳐서 더 안정적인 분산 추정치를 만드는 방법
- 두 모집단 평균 차이 검정(t-test)에서 사용 (분산이 다르면 Welch’s t-test 사용)
- 두 표본 X1, X2에 대해, 각각 표본분산이 s12, s22일 때, 분산이 같다고 가정하면
이 두 분산을 합쳐서 보다 정확한 분산 추정치를 계산할 수 있다.

'개발 > Python' 카테고리의 다른 글
| 최우추정량 (MLE, Maximum Likelihood Estimator) (0) | 2025.11.26 |
|---|---|
| 지식증류 vs 전이학습 vs 파인튜닝 (0) | 2025.11.26 |
| 파생변수 vs 요약변수 (0) | 2025.11.25 |
| 표본조사와 표본 추출 방법 (0) | 2025.11.23 |
| AgglomerativeClustering (0) | 2025.11.22 |
댓글