일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 빅데이터분석기사 실기
- Linux
- wireshark
- 워게임
- nmcli
- Dreamhack.io
- pwnable
- [EduAtoZ]
- Python
- 풀이
- centos7
- 클라우드
- 빅데이터 분석기사 실기
- VS Code 오류
- 빅데이터분석기사
- 빅분기 실기
- 인프런
- ubuntu
- dreamhack
- pandas
- tcache
- AWS
- FSB
- ios frida
- Cloud
- AWS Cloud
- 빅데이터 분석기사
- 보안뉴스
- error
- mariadb
- Today
- Total
목록분류 전체보기 (204)
0netw0m1ra
1. GridSearchCV - 최고의 HyperParameter를 찾기 위해 사용함 - sklearn.model_selection.GridSearchCV - (estimator, param_grid, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2n_jobs', error_score=nan, return_train_score=False) - estimator : 학습 모델 - param_grid : 실행해볼 HyperParameter 목록, dict 객체 - cv : CrossValidation에 사용할 나누는 개수, 기본값 = 5 - verbose 0(defualt) : 메시지 출력 안함 1 : 간단한 메시지 2 :..
1. sklearn.base.BaseEstimator - 모델의 기반 클래스 모든 머신러닝 모델(Estimator)은 반드시 상속 구현 - 학습/훈련, 예측, 평가/검정 방법 인터페이스 일관성 제공 - BaseEstimator를 상속받아 만들어진 모델들은 개별 알고리즘으로 구현, 동일 interface 사용 - fit(X_train, y_train) : 모델 학습/훈련 - score(X_test, y_test) : 성능 측정 - 1에 가까울수록 좋은 성능 - predict(X_test) : 예측 값 반환 2. help(알고리즘) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. sklearn 사용법 3/4 - 모델 학습 평가, 예측 https://www.inflearn.com/cours..
1. 데이터 분할 - sklearn.model_selecton.train_test_split - x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size, train_size, random_state, shuffle, stratify) 배열들을 지정된 비율로 나눠서 반환 test_size = 0.25 : 0.0~1.0 테스트 데이터셋 비율 train_size = None : 0.0~1.0 훈련 데이터셋 비율 random_state = None : 정수 값, 난수 발생의 시드(seed) 값 shuffle = True : boolean 값을 전달해서 섞을지 말지 결정(기본값 = True) stratify : Y의 지정한 데이터 비율을 유지(층화..
1. scikit-learn(or sklearn) library 사용 - Machine Learning을 위한 라이브러리 - 활발한 개발 커뮤니티 - 라이브러리의 지속적인 발전 - scikit-learn : https://scikit-learn.org/stable/modules/classes.html - choosing the right estimator : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 2. sklearn.preprocessing.StandardScaler - fit(X_train) : 전처리에 필요한 값 준비, return scaler - transform(X_train) : 전처리 실행, return..
1. Supervised vs Unsupervised Learning 1) 지도 학습(Supervised) - 입력, 출력 데이터가 제공되는 학습(Machine Learning에서 입력, 출력은 모두 숫자 데이터 사용) 출력데이터가 숫자화(키, 몸무게, 온도, 바람세기) 된 데이터 예측 -> 회귀 출력데이터가 범주형(손글씨, 혈액형, 지역) 데이터 예측 -> 분류 - 이미 알려진 사례를 바탕으로 일반화된 모델 구축 - 종류 : Regression, Classification - 회귀(Regression) : 숫자화된 데이터로 예측하는 것(학습에서 주어진 것 이외의 작은 값, 사이값, 큰 값이 있을 수 있음) - 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것(학습에..
- 기울기, 절편을 이용해서 예측값 알아보기 - 모델 저장하기 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. Mini Project-회귀식, 모델 저장 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. Bining(수치형 - 범주형) - 연속형 변수를 구간을 이용하여 범주화하는 과정 - 정보가 압축되고 단순해짐(정확도는 떨어짐) - 이상치 해결 방법 중 한가지로 사용하거나 오버피팅 방지 기법으로 사용 - (3, 6] : 3초과 6포함, right=True - [3, 6) : 3이상 6포함하지 않음, right=False - pd.cut() - 비율을 사용하여 구간 나누기 pd.qcut(데이터, 구간) 구간은 0~1 사이의 숫자 사용 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Binning(수치형 - 범주형) https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%E..
1. Encoding(범주형 - 수치형) - Label Encoding : 값의 일련번호로 변경, 순서가 있는 경우, 항목이 적을 때 ex. '여성', '남성', '아이' : 0, 1, 2 '월', '화', '수', '목', '금', ... : 0, 1, 2, 3, ... category 타입의 cat.codes Series.replace()를 사용함 - One Hot Encoding : 범주의 개수만큼의 feature를 만들어냄, 순서가 없는 경우, 여러 개의 항목일 때 pd.get_dummies(Series/DataFrame) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Encoding(범주형 - 수치형) https://www.inflearn.com/course/%EB%..