반응형
파생변수(derived variable, feature engineering)
- 기존 변수들을 계산, 변환, 결합하여 새로운 특징을 만드는 변수
- 새로운 정보 또는 관계를 만들어내어 예측력 향상, 분석 이해도 증가에 도움을 줌.
- 각 개별 관측치의 특성을 설명
- 예측모델링에서 매우 중요 (Feature Engineering)
- 매우 주관적인 변수일 수 있으므로 논리적 타당성 필요
- ex. 키 + 몸무게 → BMI, 가격 * 수량 = 총 매출
요약변수(summary variable, aggregate variable)
- 집계(평균, 합계, 개수 등)하여 데이터를 요약한 변수
- 데이터 전체 혹은 그룹의 특성을 대표하는 지표
- 데이터 개수(row)가 줄어들 수 있음 (집단화)
- 전체/그룹의 패턴 파악, 리포트, 통계 분석에 사용
- 대표값(합, 평균, 중앙값 등)을 중심으로 계산 → 리포트, 통계 분석, EDA
- ex. 하루 매출 데이터(집계), 고객별 주문 기록(개별 요약)
→ 파생변수는 개별 데이터에 정보를 추가하는 것이고, 요약변수는 여러 데이터를 하나로 묶어 대표값을 만드는 것
반응형
'개발 > Python' 카테고리의 다른 글
| 지식증류 vs 전이학습 vs 파인튜닝 (0) | 2025.11.26 |
|---|---|
| 통계 기본 (0) | 2025.11.26 |
| 표본조사와 표본 추출 방법 (0) | 2025.11.23 |
| AgglomerativeClustering (0) | 2025.11.22 |
| IsolationForest Hyper Parameters and Attributes (0) | 2025.11.22 |
댓글