본문 바로가기
개발/Python

통계 기본

by 피로물든딸기 2025. 11. 26.
반응형

전체 링크

 

모분산 추론

- 모집단의 분산을 직접 알 수 없을 때 표본을 이용해 추정하고 검정하는 과정

- 단일 모분산 검정 : 모분산이 특정 값과 다른지, 두 집단의 분산이 같은지 등을 가설검정으로 확인 (카이제곱 분포)

- 두 모집단 분산 비교 (F-검정)

 

점추정

- 모수(예: 모집단 평균, 분산 등)를 하나의 숫자로 추정하는 방법

- 간단하고 직관적이지만, 불확실성을 표현하지 못한다.

 

구간추정

- 모수를 하나의 값이 아니라 범위(구간)로 추정하고, 이 구간 안에 모수가 존재할 확률을 제시하는 방법

- 불확실성을 정량적으로 표현


표본오차 (Sampling Error)

- 표본조사에서 모집단 전체가 아닌 일부만 조사했기 때문에 발생하는 오차

- 표본 통계량(ex. 표본평균)이 모집단 모수(ex. 모집단 평균)와 차이가 나는 것

- 표본 크기를 늘리면 감소 (n ↑ → 표본오차 ↓)

- 무작위 표본추출을 제대로 했다면 편향(bias)은 없음

- 전국 성인 남성 키 평균을 조사할 때 100명만 조사하면, 전체 모집단 평균과 차이가 날 수 있음

 

표본편의 (Sampling Bias)

- 표본을 뽑는 과정에서 특정 성향이 과대 또는 과소 대표되는 것 때문에 생기는 오차

- 표본추출 과정에서 특정 대상에 비해 우선적으로 추출될 때 생기는 오차

- 표본이 모집단을 제대로 대표하지 못할 때 발생

- 표본이 편향되므로, 표본오차와 달리 표본 크기를 늘려도 사라지지 않음

- 설계 단계에서 주의 필요

- 온라인 설문조사에서 젊은 층이 많이 참여 → 연령 분포가 실제 모집단과 다름

- 전화조사에서 등록되지 않은 사람 제외 → 특정 계층 누락

* 확률표집으로 줄일 수 있음 (통계 모형 추론 방법으로 최소화)

 

확률표집 (Probability Sampling)

- 모집단의 각 구성원이 표본으로 선택될 확률이 알려져 있는 표집 방법

- 확률화 : 모집단으로부터 편의되지 않은 표본을 추출하는 절차

- 확률표본(random sample) : 확률화 절차에 의해 추출된 표본

- 표본이 모집단을 대표하도록 보장

- 표본편의를 줄이고, 통계적 추정의 정확성을 높임

- 모든 모집단 구성원이 0보다 큰 선택 확률을 가져야 하며, 선택 과정이 임의(random)적이어야 한다.

 

비표본오차 (Non-sampling Error)

- 표본추출 과정과 무관하게 발생하는 모든 오차를 의미

- 표본오차를 제외한 모든 오차

- 조사대상이 증가하면 오차가 커짐

- 질문 작성, 응답자, 조사원 등에 의해 발생


합동표본분산 (pooled sample variance)

- 두 개 이상의 모집단에서 분산이 같다고 가정할 때, 여러 표본의 분산을 합쳐서 하나의 공통 분산 추정치를 만드는 방법

- 각 표본 분산에 자유도를 곱한 뒤 합하고, 전체 자유도로 나눈 것

- 두 표본의 분산 정보를 합쳐서 더 안정적인 분산 추정치를 만드는 방법

- 두 모집단 평균 차이 검정(t-test)에서 사용 (분산이 다르면 Welch’s t-test 사용)

- 두 표본 X1, X2에 대해, 각각 표본분산이 s12, s22일 때, 분산이 같다고 가정하면

  이 두 분산을 합쳐서 보다 정확한 분산 추정치를 계산할 수 있다.

 

 

반응형

댓글