반응형
이상치 탐지 vs 특이치 탐지
| 구분 | 이상치 (Outlier) | 특이치 (Anomaly) |
| 정의 | 데이터 분포에서 통계적으로 벗어난 값. 일반적으로 극단값 또는 패턴에서 벗어난 값 |
정상적인 패턴에서 벗어나 의미 있는 변화를 나타내는 값 보통 문제/이벤트 발생과 연관됨 |
| 목적 | 데이터 정제, 모델 학습 안정화, 통계 분석 | 이상 이벤트 탐지, 사기/결함/이상 신호 탐지 |
| 발생 원인 | 데이터 오류, 측정 오류, 자연스러운 변동 | 시스템 이상, 공격, 결함, 이벤트 등 |
| 탐지 기준 | 통계적 기준: 평균±3σ, IQR 등 | 패턴 기반 기준: 정상 패턴 학습 후 벗어나는 경우 |
| 분석 접근법 | 주로 통계적 기법, 거리 기반, 밀도 기반 | 머신러닝 기반, 시계열 분석, 예측 모델 기반 |
| 중요성 | 모델 성능 향상을 위해 제거 또는 조정 | 즉각적 대응 필요, 보안/운영/모니터링 목적으로 중요 |
| 예시 | 키, 체중 데이터 중 극단값 | 신용카드 부정 사용, 서버 이상 트래픽, 센서 고장 신호 |
→ 모든 특이치는 이상치일 수 있지만, 모든 이상치가 의미 있는 특이치는 아니다.
이상치 탐지는 이상치가 포함될 수 있는 데이터셋에서 알고리즘을 훈련
특이치 탐지는 깨끗하다고 가정한 데이터셋에서 알고리즘을 훈련
ㄴ 특이치 탐지 목적은 새로운 샘플 사이에서 특이한 것을 감지
반응형
'개발 > Python' 카테고리의 다른 글
| 등분산성 검정 (0) | 2025.10.20 |
|---|---|
| BernoulliNB (나이브 베이즈) (0) | 2025.10.20 |
| 합성곱 신경망 (Feature Map) (0) | 2025.10.20 |
| 신경망 파라미터 개수 (0) | 2025.10.20 |
| 차트 (0) | 2025.10.14 |
댓글