모집단 (Population)
- 조사나 연구의 대상이 되는 전체 집단
- 우리가 알고 싶은 전체 범위
- ex. 학교에 있는 모든 학생들의 키
- 모집단은 너무 크기 때문에, 전부 조사하기가 어렵거나 시간/비용이 많이 든다는 문제가 있다.
원소 (Element)
- 모집단을 구성하는 개별 대상
- ex. 각각의 학생 한 명 한 명
- 원소들의 집합이 모집단
표본 (Sample)
- 모집단에서 일부를 뽑은 것
- 연구를 위해 선택된 집단
- ex. 무작위로 뽑은 학생 50명의 키
- 전체를 조사하기 힘드니 표본을 사용하여 모집단을 추정함
모수 (Parameter)
- 모집단 전체의 특성을 나타내는 값
- 우리가 알고 싶지만 구하기 어려운 수치
- ex. 학교 전체 학생의 평균 키, 전체 학생 키의 분산
- 모수는 보통 표본 통계량을 통해 추정
명목척도
- 이름만 다른 범주형 자료
- 숫자 간 크기나 순서 개념이 없음
- 비교 : 같다 / 다르다
- 분석 : 빈도수, 비율, 최빈값
- 혈액형, 국적
순서척도
- 서열척도
- 순위가 있는 척도
- 크고 작음의 비교가 가능하지만 간격이 일정하지 않음
- 비교 : 크기 비교 가능
- 분석 : 순위 분석, 중앙값
- 등급, 학년, 선호도
구간척도
- 등간척도
- 값들 간의 간격이 동일
- 대상이 가지고 있는 속성의 양을 측정
- 절대적인 0이 없음. (0이 "없다"를 뜻하지 않음)
- 비교 : 덧셈 / 뺄셈 가능, 비율 비교(x2)는 불가능
- 온도, 연도, IQ 점수 (120이 60의 두배가 아님)
비율척도
- 간격이 동일하고 절대적 0이 존재
- 비교 : 모든 계산 가능
- 분석 : 평균, 표준편차, 비율 비교 가능
- 무게, 길이, 소득, 나이, 시간
표본 추출 방법
단순랜덤추출법 (Simple Random Sampling)
- 무작위 추출 방식.
- 가장 기본적이고 편향이 적으나, 모집단이 크면 비용·시간 증가
계통추출법 (Systematic Sampling)
- 일정 간격(k) 을 두고 표본을 선택.
- 첫 번째 표본만 랜덤으로 선택하고 이후는 주기적으로 뽑음.
- 간격이 문제가 될 수 있음(주기성 Bias 발생 가능)
- 1,000명의 회원 명단에서 10명마다 1명씩, 즉 100명 추출.
- 단, 첫 번째 사람은 랜덤(예: 3번) → 3, 13, 23, 33 … 선택.
집락추출법 (Cluster Sampling)
- 모집단이 여러 그룹(집락)으로 자연스럽게 나뉘어 있을 때 사용.
- 전체 그룹 중 일부 그룹만 랜덤 선택하고 그 그룹에서 전체 조사를 수행.
- 비용이 낮고 효율적, 하지만 정확도가 낮을 수 있음.
- 전국 학생 조사 시 전국 모든 학교를 조사하면 비효율적 →
무작위로 10개 학교(집락)만 테이블로 선택 → 해당 학교 학생 전수조사.
* 집락 = 실제 자연적으로 존재하는 그룹(학교, 회사, 도시 등)
층화추출법 (Stratified Sampling)
- 모집단을 특성에 따라 층(Stratum) 으로 구분한 뒤 각 층에서 표본을 랜덤으로 뽑음.
- 전체를 더 정확하게 대표할 수 있음.
- 층 구분 기준이 중요
- 회사 직원 1,000명 중 직급(사원/대리/과장/부장) 으로 층을 나눈 뒤, 각 직급 비율만큼 표본을 랜덤 추출.
- 사원 50명, 대리 30명, 과장 15명, 부장 5명 등
* 층화 = 인위적으로 분류(성별, 나이, 직급, 지역 등)
'개발 > Python' 카테고리의 다른 글
| 통계 기본 (0) | 2025.11.26 |
|---|---|
| 파생변수 vs 요약변수 (0) | 2025.11.25 |
| AgglomerativeClustering (0) | 2025.11.22 |
| IsolationForest Hyper Parameters and Attributes (0) | 2025.11.22 |
| LocalOutlierFactor Hyper Parameters and Attributes (0) | 2025.11.22 |
댓글