일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- dreamhack
- 빅데이터 분석기사
- 보안뉴스
- 빅데이터 분석기사 실기
- FSB
- pandas
- Linux
- 풀이
- 클라우드
- 빅데이터분석기사 실기
- AWS
- centos7
- 빅데이터분석기사
- Python
- nmcli
- AWS Cloud
- 워게임
- Dreamhack.io
- tcache
- ubuntu
- VS Code 오류
- pwnable
- [EduAtoZ]
- mariadb
- 빅분기 실기
- 인프런
- wireshark
- error
- ios frida
- Cloud
- Today
- Total
목록빅데이터 분석기사 실기 (21)
0netw0m1ra
https://www.dataq.or.kr/www/board/view.do -> 응시환경 체험 3번 문제 1. 문제 이해 고객 3,500명에 대한 학습용 데이터(X_train.csv, y_train.csv)를 이용하여 성별예측 모형을 만든 후, 이를 평가용 데이터(X_test.csv)에 적용하여 얻은 2,482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 csv 파일로 생성하시오. - X_train.csv : 3,500명 데이터, 고객의 상품구매 속성(학습용) - X_test.csv : 2,482명 데이터, 고객의 상품구매 속성(평가용) - y_train.csv : 고객의 성별 데이터(학습용) 2. 파일 읽어오기 3. 전처리 1) 데이터 확인 2) 결측치 제거 / 대체 # 많은 양의 결측치가..
1. 오분류표 - sklearn.metrics.confusion_matrix(y_true, y_pred, *, labels=None, sample_weight=None, normalize=None) - y_true : 실제값 - y_pred : 예측값 2. 확률 구하기 - 분류모델에서는 ~할 확률값을 구할 수 있음 - model.predict_proba(x_test) 3. 예측값 저장 - 행은 모두 포함하고, 열(컬럼)은 합격여부의 결과인 컬럼만 저장 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. 분류모델-평가, 결과 파일 저장 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D..
1. sklearn.base.BaseEstimator - 모델의 기반 클래스 모든 머신러닝 모델(Estimator)은 반드시 상속 구현 - 학습/훈련, 예측, 평가/검정 방법 인터페이스 일관성 제공 - BaseEstimator를 상속받아 만들어진 모델들은 개별 알고리즘으로 구현, 동일 interface 사용 - fit(X_train, y_train) : 모델 학습/훈련 - score(X_test, y_test) : 성능 측정 - 1에 가까울수록 좋은 성능 - predict(X_test) : 예측 값 반환 2. help(알고리즘) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. sklearn 사용법 3/4 - 모델 학습 평가, 예측 https://www.inflearn.com/cours..
1. scikit-learn(or sklearn) library 사용 - Machine Learning을 위한 라이브러리 - 활발한 개발 커뮤니티 - 라이브러리의 지속적인 발전 - scikit-learn : https://scikit-learn.org/stable/modules/classes.html - choosing the right estimator : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 2. sklearn.preprocessing.StandardScaler - fit(X_train) : 전처리에 필요한 값 준비, return scaler - transform(X_train) : 전처리 실행, return..
1. Supervised vs Unsupervised Learning 1) 지도 학습(Supervised) - 입력, 출력 데이터가 제공되는 학습(Machine Learning에서 입력, 출력은 모두 숫자 데이터 사용) 출력데이터가 숫자화(키, 몸무게, 온도, 바람세기) 된 데이터 예측 -> 회귀 출력데이터가 범주형(손글씨, 혈액형, 지역) 데이터 예측 -> 분류 - 이미 알려진 사례를 바탕으로 일반화된 모델 구축 - 종류 : Regression, Classification - 회귀(Regression) : 숫자화된 데이터로 예측하는 것(학습에서 주어진 것 이외의 작은 값, 사이값, 큰 값이 있을 수 있음) - 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것(학습에..
- 기울기, 절편을 이용해서 예측값 알아보기 - 모델 저장하기 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. Mini Project-회귀식, 모델 저장 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. 데이터 스케일링 - min-max normalization : 값의 범위를 [0, 1]로 변환 (xi - x.min()) / (x.max() - x.min()) - standardization : 특성의 값이 표준정규분포를 갖도록 변환(평균 0, 표준편차 1) (xi - x.mean()) / x.std() - sklearn의 MinMaxScaler, StandardScaler 사용 가능 스케일러의 fit_transform() 사용시 2차원의 데이터를 전달해야 함 (DataFrame도 2차원), 결과는 ndarray로 반환 됨 - scipy.stat의 zxcore 함수 사용 가능 1차원 데이터 가능 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 스케일링 https://ww..
1. 라이브러리 - numpy API : https://numpy.org/doc/stable/reference/ - pandas API : https://pandas.pydata.org/pandas-docs/stable/reference/index.html 2. 통계 분석 개요 모집단(population) : 연구 대상 데이터 전체 집합 모수(parameter) : 모집단의 특성을 나타내는 수치 표본(sample) : 모집단에서 추출한 일부 데이터 통계량(statistic) : 표본의 특성을 나타내는 수치 모집단의 모수 표본의 통계량 모평균 표본평균 모분산 표본분산 모표준편차 표본표준편차 3. pandas의 var()와 numpy의 var()가 다른 이유? # Delta Degrees of Freedom..