본문 바로가기
개발/Python

파생변수 vs 요약변수

by 피로물든딸기 2025. 11. 25.
반응형

전체 링크

 

파생변수(derived variable, feature engineering)

- 기존 변수들을 계산, 변환, 결합하여 새로운 특징을 만드는 변수

- 새로운 정보 또는 관계를 만들어내어 예측력 향상, 분석 이해도 증가에 도움을 줌.

- 각 개별 관측치의 특성을 설명

- 예측모델링에서 매우 중요 (Feature Engineering)

- 매우 주관적인 변수일 수 있으므로 논리적 타당성 필요

- ex. 키 + 몸무게 → BMI, 가격 * 수량 = 총 매출

 

요약변수(summary variable, aggregate variable)

- 집계(평균, 합계, 개수 등)하여 데이터를 요약한 변수

- 데이터 전체 혹은 그룹의 특성을 대표하는 지표

- 데이터 개수(row)가 줄어들 수 있음 (집단화)

- 전체/그룹의 패턴 파악, 리포트, 통계 분석에 사용

- 대표값(합, 평균, 중앙값 등)을 중심으로 계산 → 리포트, 통계 분석, EDA

- ex. 하루 매출 데이터(집계), 고객별 주문 기록(개별 요약)

 

파생변수는 개별 데이터에 정보를 추가하는 것이고, 요약변수는 여러 데이터를 하나로 묶어 대표값을 만드는 것

반응형

'개발 > Python' 카테고리의 다른 글

지식증류 vs 전이학습 vs 파인튜닝  (0) 2025.11.26
통계 기본  (0) 2025.11.26
표본조사와 표본 추출 방법  (0) 2025.11.23
AgglomerativeClustering  (0) 2025.11.22
IsolationForest Hyper Parameters and Attributes  (0) 2025.11.22

댓글