0netw0m1ra

[036] 이상치 확인 및 처리 본문

빅데이터분석기사 실기

[036] 이상치 확인 및 처리

M1RA 2022. 6. 21. 17:28

1. 이상치(outlier)

- 일반적인 값들과 많이 떨어진 위치의 데이터

- 평균은 이상치에 영향을 크게 받지만, 중앙값은 영향을 거의 받지 않음

2. 이상치 확인

- 그래프로 확인하는 방법

    Series나 DataFrame의 경우,

    x.plot(kind = 'box') 또는 x.plot.box() 로 확인 가능

3. ESD(Extream Studentized Diviate)를 이용한 방법

- 평균으로 부터 3 표준편차 떨어진 값을 이상치로 판단

- tip에 대한 이상치 구하기, 소수점 아래 2째 자리까지 표기

- 사분위수를 이용한 방법

    Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과를 이상치로 판단 ( IQR = Q3 - Q1)

4. 이상치 처리

- 이상치 제거 : 정상범주에 있는 데이터를 indexing 하는 방법으로 처리(q_lower, q_upper 사이 값이 정상)

5. 이상치 대체

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 이상치(outlier) 확인 및 해결방법

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC