0netw0m1ra

[040] 데이터 Binning(수치형 - 범주형) 본문

빅데이터분석기사 실기

[040] 데이터 Binning(수치형 - 범주형)

M1RA 2022. 6. 21. 19:01

1. Bining(수치형 - 범주형)

- 연속형 변수를 구간을 이용하여 범주화하는 과정

- 정보가 압축되고 단순해짐(정확도는 떨어짐)

- 이상치 해결 방법 중 한가지로 사용하거나 오버피팅 방지 기법으로 사용

- (3, 6] : 3초과 6포함, right=True

- [3, 6) : 3이상 6포함하지 않음, right=False

- pd.cut()

- 비율을 사용하여 구간 나누기

    pd.qcut(데이터, 구간)

    구간은 0~1 사이의 숫자 사용

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Binning(수치형 - 범주형)

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC