통계 기본

전체 링크

모분산 추론

- 모집단의 분산을 직접 알 수 없을 때 표본을 이용해 추정하고 검정하는 과정

- 단일 모분산 검정 : 모분산이 특정 값과 다른지, 두 집단의 분산이 같은지 등을 가설검정으로 확인 (카이제곱 분포)

- 두 모집단 분산 비교 (F-검정)

점추정

- 모수(예: 모집단 평균, 분산 등)를 하나의 숫자로 추정하는 방법

- 간단하고 직관적이지만, 불확실성을 표현하지 못한다.

구간추정

- 모수를 하나의 값이 아니라 범위(구간)로 추정하고, 이 구간 안에 모수가 존재할 확률을 제시하는 방법

- 불확실성을 정량적으로 표현

표본오차 (Sampling Error)

- 표본조사에서 모집단 전체가 아닌 일부만 조사했기 때문에 발생하는 오차

- 표본 통계량(ex. 표본평균)이 모집단 모수(ex. 모집단 평균)와 차이가 나는 것

- 표본 크기를 늘리면 감소 (n ↑ → 표본오차 ↓)

- 무작위 표본추출을 제대로 했다면 편향(bias)은 없음

- 전국 성인 남성 키 평균을 조사할 때 100명만 조사하면, 전체 모집단 평균과 차이가 날 수 있음

표본편의 (Sampling Bias)

- 표본을 뽑는 과정에서 특정 성향이 과대 또는 과소 대표되는 것 때문에 생기는 오차

- 표본추출 과정에서 특정 대상에 비해 우선적으로 추출될 때 생기는 오차

- 표본이 모집단을 제대로 대표하지 못할 때 발생

- 표본이 편향되므로, 표본오차와 달리 표본 크기를 늘려도 사라지지 않음

- 설계 단계에서 주의 필요

- 온라인 설문조사에서 젊은 층이 많이 참여 → 연령 분포가 실제 모집단과 다름

- 전화조사에서 등록되지 않은 사람 제외 → 특정 계층 누락

* 확률표집으로 줄일 수 있음 (통계 모형 추론 방법으로 최소화)

확률표집 (Probability Sampling)

- 모집단의 각 구성원이 표본으로 선택될 확률이 알려져 있는 표집 방법

- 확률화 : 모집단으로부터 편의되지 않은 표본을 추출하는 절차

- 확률표본(random sample) : 확률화 절차에 의해 추출된 표본

- 표본이 모집단을 대표하도록 보장

- 표본편의를 줄이고, 통계적 추정의 정확성을 높임

- 모든 모집단 구성원이 0보다 큰 선택 확률을 가져야 하며, 선택 과정이 임의(random)적이어야 한다.

비표본오차 (Non-sampling Error)

- 표본추출 과정과 무관하게 발생하는 모든 오차를 의미

- 표본오차를 제외한 모든 오차

- 조사대상이 증가하면 오차가 커짐

- 질문 작성, 응답자, 조사원 등에 의해 발생

합동표본분산 (pooled sample variance)

- 두 개 이상의 모집단에서 분산이 같다고 가정할 때, 여러 표본의 분산을 합쳐서 하나의 공통 분산 추정치를 만드는 방법

- 각 표본 분산에 자유도를 곱한 뒤 합하고, 전체 자유도로 나눈 것

- 두 표본의 분산 정보를 합쳐서 더 안정적인 분산 추정치를 만드는 방법

- 두 모집단 평균 차이 검정(t-test)에서 사용 (분산이 다르면 Welch’s t-test 사용)

- 두 표본 X1, X2에 대해, 각각 표본분산이 s1², s2²일 때, 분산이 같다고 가정하면

이 두 분산을 합쳐서 보다 정확한 분산 추정치를 계산할 수 있다.

'개발 > Python' 카테고리의 다른 글

최우추정량 (MLE, Maximum Likelihood Estimator) (0)	2025.11.26
지식증류 vs 전이학습 vs 파인튜닝 (0)	2025.11.26
파생변수 vs 요약변수 (0)	2025.11.25
표본조사와 표본 추출 방법 (0)	2025.11.23
AgglomerativeClustering (0)	2025.11.22

피로물든딸기의 라이브러리

통계 기본

'개발 > Python' 카테고리의 다른 글

댓글

티스토리툴바

통계 기본

'개발 > Python' 카테고리의 다른 글

관련글

댓글

티스토리툴바