0netw0m1ra

[046] sklearn - 데이터 분할(train_test_split) 본문

빅데이터분석기사 실기

[046] sklearn - 데이터 분할(train_test_split)

M1RA 2022. 6. 22. 12:18

1. 데이터 분할

- sklearn.model_selecton.train_test_split

- x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size, train_size, random_state, shuffle, stratify)

    배열들을 지정된 비율로 나눠서 반환

    test_size = 0.25 : 0.0~1.0 테스트 데이터셋 비율

    train_size = None : 0.0~1.0 훈련 데이터셋 비율

    random_state = None : 정수 값, 난수 발생의 시드(seed) 값

    shuffle = True : boolean 값을 전달해서 섞을지 말지 결정(기본값 = True)

    stratify : Y의 지정한 데이터 비율을 유지(층화추출), Y가 범주형일 때 사용함

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

(실습)

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. sklearn 사용법 2/4 - 데이터 분할(train_test_split)

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC