Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- Dreamhack.io
- centos7
- 빅데이터 분석기사 실기
- 보안뉴스
- AWS
- 빅데이터분석기사 실기
- ubuntu
- wireshark
- 빅데이터분석기사
- dreamhack
- [EduAtoZ]
- tcache
- Python
- 워게임
- FSB
- VS Code 오류
- nmcli
- Cloud
- mariadb
- 풀이
- 빅데이터 분석기사
- pwnable
- pandas
- 인프런
- AWS Cloud
- error
- 클라우드
- ios frida
- 빅분기 실기
- Linux
Archives
- Today
- Total
0netw0m1ra
[036] 이상치 확인 및 처리 본문
1. 이상치(outlier)
- 일반적인 값들과 많이 떨어진 위치의 데이터
- 평균은 이상치에 영향을 크게 받지만, 중앙값은 영향을 거의 받지 않음
2. 이상치 확인
- 그래프로 확인하는 방법
Series나 DataFrame의 경우,
x.plot(kind = 'box') 또는 x.plot.box() 로 확인 가능
3. ESD(Extream Studentized Diviate)를 이용한 방법
- 평균으로 부터 3 표준편차 떨어진 값을 이상치로 판단
- tip에 대한 이상치 구하기, 소수점 아래 2째 자리까지 표기
- 사분위수를 이용한 방법
Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과를 이상치로 판단 ( IQR = Q3 - Q1)
4. 이상치 처리
- 이상치 제거 : 정상범주에 있는 데이터를 indexing 하는 방법으로 처리(q_lower, q_upper 사이 값이 정상)
5. 이상치 대체
<출처>
인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 이상치(outlier) 확인 및 해결방법
'빅데이터분석기사 실기' 카테고리의 다른 글
[038] 데이터 스케이링(Data Scaling) (0) | 2022.06.21 |
---|---|
[037] 데이터 변환 (0) | 2022.06.21 |
[035] pandas 알아야 하는 것 (0) | 2022.06.21 |
[034] DataFrame 실습 (0) | 2022.06.21 |
[033] 조건있는 데이터 추출 실습 (0) | 2022.06.21 |