일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- tcache
- FSB
- 빅분기 실기
- AWS Cloud
- wireshark
- mariadb
- Python
- 인프런
- 보안뉴스
- [EduAtoZ]
- ios frida
- ubuntu
- 빅데이터분석기사
- Linux
- error
- AWS
- 빅데이터 분석기사
- nmcli
- 클라우드
- 워게임
- 빅데이터 분석기사 실기
- VS Code 오류
- pwnable
- 빅데이터분석기사 실기
- centos7
- pandas
- Dreamhack.io
- dreamhack
- 풀이
- Cloud
- Today
- Total
0netw0m1ra
[044] Machine Learning 기본 용어 본문
1. Supervised vs Unsupervised Learning
1) 지도 학습(Supervised)
- 입력, 출력 데이터가 제공되는 학습(Machine Learning에서 입력, 출력은 모두 숫자 데이터 사용)
출력데이터가 숫자화(키, 몸무게, 온도, 바람세기) 된 데이터 예측 -> 회귀
출력데이터가 범주형(손글씨, 혈액형, 지역) 데이터 예측 -> 분류
- 이미 알려진 사례를 바탕으로 일반화된 모델 구축
- 종류 : Regression, Classification
- 회귀(Regression) : 숫자화된 데이터로 예측하는 것(학습에서 주어진 것 이외의 작은 값, 사이값, 큰 값이 있을 수 있음)
- 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것(학습에서 주어진 것 이외에 다른 category 없음)
2) 비지도 학습(Unsupervised)
- 입력은 주어지지만 출력은 제공되지 않음
- 기계가 알아서 학습하여 결과를 찾아내는 방법
- 종류 : clustering, Demension Reductoion, Association
- 군집화(Clustering) : 비슷한 특징을 가진 아이템을 그룹화하는 것
2. 데이터 세트(Data Set)
- Data Set : 머신러닝에서 입력(X), 출력(Y)에 사용되는 데이터 묶음
- Data Set는 1개 이상의 입력과 1개의 출력으로 구성됨
- 지도 학습에서 입력으로 사용되는 것이 X, 출력으로 사용되는 것이 Y
X : 2차원 구조이며, 1개의 sample은 1차원 구조임
Y : 1차원 구조이며, 1개의 sample에 대한 target은 1개의 scalar 값
3. 홀드 아웃(Hold Out)
- 성능 검증을 위해 Data Set을 Train Set, Test Set으로 분리하여 사용함
Train Set은 학습에, Test Set는 성능 검증을 위해 사용됨
일반적으로 7:3 ~ 8:2로 많이 구분함
- 본 수업에서의 데이터 이름
X_train.csv : x_train, x_test
Y_train.csv : y_train, y_test
X_test.csv : x_submission -> 제출하면 시험 감독관이 확인하는 파일
4. 교차검증(Cross Validation)
- 데이터가 충분하지 않을 경우 Hold-Out으로 나누면 많은 양의 분산 발생
- 이에 대한 해결책으로 교차검증을 사용할 수 있음
- 클래스 불균형 데이터에는 적합하지 않음
- 주어지 데이터르 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 모형 평가
<K-Fold Cross Validation>
1. 전체 데이터를 shuffle
2. K개로 데이터 분할
3. K 번 째의 하부 집합을 검증용 자료, K-1 개는 훈련용 자료로 사용하여 K번 반복 측정
4. 결과를 평균 낸 값을 최종 평가로 사용
- 이미지 출처 : https://chrisjmccormick.wordpress.com/2013/07/31/k-fold-cross-validation-with-matlab-code/
5. 오버피팅(Overfitting)
- 머신러닝 진행 시 주의해야 하는 가장 중요한 문제 중 하나
- 너무 잘 맞아 떨어진다!는 의미
- Training data에만 너무 잘 맞고, training data 이외의 데이터들에 대해서는 잘 맞지 않는 경우
- 해결 방법
Cross Validation
Regularization
Remove Features
Ensenbling
- Underfitting : 아직 학습이 제대로 이루어지지 않은 상태
- 적절한(appropriate) 학습이 좋음
6. Parameter vs Hyperparameter
- 머신러닝 모델의 Parameter : 모델의 구성요소, 데이터로부터 학습되는 것
- 머신러닝 모델의 Hyperparameter : 모델 학습 과정에 반영되며, 학습을 시작하기 전에 미리 값을 결정하는 것
- Parameter : Linear Regression 에서 y = Wx + b 와 같은 직선 방정식의 W, b를 찾는 것
- Hyperparameter : kNN에서 k의 개수, Ridge, Lasso의 a값, Learning Rate 등
<출처>
인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. 머신러닝 기본 용어
'빅데이터분석기사 실기' 카테고리의 다른 글
[046] sklearn - 데이터 분할(train_test_split) (0) | 2022.06.22 |
---|---|
[045] sklearn - import 라이브러리 (0) | 2022.06.22 |
[043] 기울기(회귀계수), 절편 확인, 모델 저장 (0) | 2022.06.22 |
[040] 데이터 Binning(수치형 - 범주형) (0) | 2022.06.21 |
[039] 데이터 Encoding (0) | 2022.06.21 |