0netw0m1ra

[044] Machine Learning 기본 용어 본문

빅데이터분석기사 실기

[044] Machine Learning 기본 용어

M1RA 2022. 6. 22. 11:33

1. Supervised vs Unsupervised Learning

1) 지도 학습(Supervised)

- 입력, 출력 데이터가 제공되는 학습(Machine Learning에서 입력, 출력은 모두 숫자 데이터 사용)

    출력데이터가 숫자화(키, 몸무게, 온도, 바람세기) 된 데이터 예측 -> 회귀

    출력데이터가 범주형(손글씨, 혈액형, 지역) 데이터 예측 -> 분류

- 이미 알려진 사례를 바탕으로 일반화된 모델 구축

- 종류 : Regression, Classification

- 회귀(Regression) : 숫자화된 데이터로 예측하는 것(학습에서 주어진 것 이외의 작은 값, 사이값, 큰 값이 있을 수 있음)

- 분류(Classification) : 어떤 데이터에 대한 category를 예측하는 것(학습에서 주어진 것 이외에 다른 category 없음)

2) 비지도 학습(Unsupervised)

- 입력은 주어지지만 출력은 제공되지 않음

- 기계가 알아서 학습하여 결과를 찾아내는 방법

- 종류 : clustering, Demension Reductoion, Association

- 군집화(Clustering) : 비슷한 특징을 가진 아이템을 그룹화하는 것

 

2. 데이터 세트(Data Set)

- Data Set : 머신러닝에서 입력(X), 출력(Y)에 사용되는 데이터 묶음

- Data Set는 1개 이상의 입력과 1개의 출력으로 구성됨

- 지도 학습에서 입력으로 사용되는 것이 X, 출력으로 사용되는 것이 Y

    X : 2차원 구조이며, 1개의 sample은 1차원 구조임

    Y : 1차원 구조이며, 1개의 sample에 대한 target은 1개의 scalar 값

 

3. 홀드 아웃(Hold Out)

- 성능 검증을 위해 Data Set을 Train Set, Test Set으로 분리하여 사용함

    Train Set은 학습에, Test Set는 성능 검증을 위해 사용됨

    일반적으로 7:3 ~ 8:2로 많이 구분함

- 본 수업에서의 데이터 이름

    X_train.csv : x_train, x_test

    Y_train.csv : y_train, y_test

    X_test.csv : x_submission -> 제출하면 시험 감독관이 확인하는 파일

 

4. 교차검증(Cross Validation)

- 데이터가 충분하지 않을 경우 Hold-Out으로 나누면 많은 양의 분산 발생

- 이에 대한 해결책으로 교차검증을 사용할 수 있음

- 클래스 불균형 데이터에는 적합하지 않음

- 주어지 데이터르 가지고 반복적으로 성과를 측정하여 그 결과를 평균한 것으로 모형 평가

<K-Fold Cross Validation>

1. 전체 데이터를 shuffle

2. K개로 데이터 분할

3. K 번 째의 하부 집합을 검증용 자료, K-1 개는 훈련용 자료로 사용하여 K번 반복 측정

4. 결과를 평균 낸 값을 최종 평가로 사용

- 이미지 출처 : https://chrisjmccormick.wordpress.com/2013/07/31/k-fold-cross-validation-with-matlab-code/

 

5. 오버피팅(Overfitting)

- 머신러닝 진행 시 주의해야 하는 가장 중요한 문제 중 하나

- 너무 잘 맞아 떨어진다!는 의미

- Training data에만 너무 잘 맞고, training data 이외의 데이터들에 대해서는 잘 맞지 않는 경우

- 해결 방법

    Cross Validation

    Regularization

    Remove Features

    Ensenbling

- Underfitting : 아직 학습이 제대로 이루어지지 않은 상태

- 적절한(appropriate) 학습이 좋음

 

6. Parameter vs Hyperparameter

- 머신러닝 모델의 Parameter : 모델의 구성요소, 데이터로부터 학습되는 것

- 머신러닝 모델의 Hyperparameter : 모델 학습 과정에 반영되며, 학습을 시작하기 전에 미리 값을 결정하는 것

- Parameter : Linear Regression 에서 y = Wx + b 와 같은 직선 방정식의 W, b를 찾는 것

- Hyperparameter : kNN에서 k의 개수, Ridge, Lasso의 a값, Learning Rate 등

 

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. 머신러닝 기본 용어

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC