[053] 빅분기실기) 작업형2 예시 문제 실습
<문제>
https://www.dataq.or.kr/www/board/view.do -> 응시환경 체험 3번 문제
<해결>
1. 문제 이해
고객 3,500명에 대한 학습용 데이터(X_train.csv, y_train.csv)를 이용하여 성별예측 모형을 만든 후, 이를 평가용 데이터(X_test.csv)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 csv 파일로 생성하시오.
- X_train.csv : 3,500명 데이터, 고객의 상품구매 속성(학습용)
- X_test.csv : 2,482명 데이터, 고객의 상품구매 속성(평가용)
- y_train.csv : 고객의 성별 데이터(학습용)
2. 파일 읽어오기
3. 전처리
1) 데이터 확인
2) 결측치 제거 / 대체
# 많은 양의 결측치가 있으므로 '환불금액' 결측치를 사용하지 않는 방법
# 다른 값으로 채우기 - 범주형(새로운 범주 생성), 연속형(평균, 중앙값)
# 상관관계가 높은 값이 있다면 제거해야 함 : -1또는 1에 가까운 것은 좋지 않음
# 현재 문제에서는 해당없음
# 하지만, 0.9 이런 식으로 1에 가까운 값이 있다면 제거하는 것이 좋음
* df.loc[:3500, :] -> 3500을 포함하기 때문에 3501개
* df.iloc[:3500, :] -> 3500을 포함하지 않기 때문에 3500개
3) dtype : object -> 숫자형으로 적절한 변환 필요
4. 데이터 모델링
1) 라이브러리 import
2) X, Y 분리하기 : get_data()
3) 모델 만들기 : make_models()
4) 모델 성능 확인 함수
5) 가장 높은 정확도 가진 모델 찾기 -> model4
6) 모델 선택
5. 최종 제출
<출처>
인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. 고객의 성별 예측 예시문제 풀이