일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- dreamhack
- 빅데이터분석기사 실기
- 클라우드
- 워게임
- 빅데이터분석기사
- Cloud
- nmcli
- AWS
- 빅분기 실기
- mariadb
- AWS Cloud
- [EduAtoZ]
- error
- pwnable
- 빅데이터 분석기사 실기
- Python
- Dreamhack.io
- 보안뉴스
- 빅데이터 분석기사
- centos7
- 인프런
- Linux
- ubuntu
- tcache
- VS Code 오류
- ios frida
- pandas
- 풀이
- FSB
- wireshark
- Today
- Total
목록빅분기 실기 (46)
0netw0m1ra
1. scikit-learn(or sklearn) library 사용 - Machine Learning을 위한 라이브러리 - 활발한 개발 커뮤니티 - 라이브러리의 지속적인 발전 - scikit-learn : https://scikit-learn.org/stable/modules/classes.html - choosing the right estimator : https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html 2. sklearn.preprocessing.StandardScaler - fit(X_train) : 전처리에 필요한 값 준비, return scaler - transform(X_train) : 전처리 실행, return..
- 기울기, 절편을 이용해서 예측값 알아보기 - 모델 저장하기 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part3. Mini Project-회귀식, 모델 저장 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. Bining(수치형 - 범주형) - 연속형 변수를 구간을 이용하여 범주화하는 과정 - 정보가 압축되고 단순해짐(정확도는 떨어짐) - 이상치 해결 방법 중 한가지로 사용하거나 오버피팅 방지 기법으로 사용 - (3, 6] : 3초과 6포함, right=True - [3, 6) : 3이상 6포함하지 않음, right=False - pd.cut() - 비율을 사용하여 구간 나누기 pd.qcut(데이터, 구간) 구간은 0~1 사이의 숫자 사용 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Binning(수치형 - 범주형) https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%E..
1. Encoding(범주형 - 수치형) - Label Encoding : 값의 일련번호로 변경, 순서가 있는 경우, 항목이 적을 때 ex. '여성', '남성', '아이' : 0, 1, 2 '월', '화', '수', '목', '금', ... : 0, 1, 2, 3, ... category 타입의 cat.codes Series.replace()를 사용함 - One Hot Encoding : 범주의 개수만큼의 feature를 만들어냄, 순서가 없는 경우, 여러 개의 항목일 때 pd.get_dummies(Series/DataFrame) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Encoding(범주형 - 수치형) https://www.inflearn.com/course/%EB%..
1. 데이터 스케일링 - min-max normalization : 값의 범위를 [0, 1]로 변환 (xi - x.min()) / (x.max() - x.min()) - standardization : 특성의 값이 표준정규분포를 갖도록 변환(평균 0, 표준편차 1) (xi - x.mean()) / x.std() - sklearn의 MinMaxScaler, StandardScaler 사용 가능 스케일러의 fit_transform() 사용시 2차원의 데이터를 전달해야 함 (DataFrame도 2차원), 결과는 ndarray로 반환 됨 - scipy.stat의 zxcore 함수 사용 가능 1차원 데이터 가능 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 스케일링 https://ww..
1. 데이터 변환(Transform) - 이상치를 완화하거나, 정규분포가 되도록 하기 위해 사용함 - numpy의 log1p, sqrt, expm1, power 등의 함수 사용 log1p, sqrt 는 큰 값을 작게 만들어 주며, 오른쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용 큰 이상치를 작게 만들 수 있음 expm1, power는 작은 값을 크게 만들어 주며, 왼쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용함 2. np.log 3. 변환된 데이터 다시 원본으로 되돌리기 - log1p expm1 - sqrt np.power(?, 2) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 분포 변환 https://www.inflearn.com/course/%EB%B9%85%EB..
1. 이상치(outlier) - 일반적인 값들과 많이 떨어진 위치의 데이터 - 평균은 이상치에 영향을 크게 받지만, 중앙값은 영향을 거의 받지 않음 2. 이상치 확인 - 그래프로 확인하는 방법 Series나 DataFrame의 경우, x.plot(kind = 'box') 또는 x.plot.box() 로 확인 가능 3. ESD(Extream Studentized Diviate)를 이용한 방법 - 평균으로 부터 3 표준편차 떨어진 값을 이상치로 판단 - tip에 대한 이상치 구하기, 소수점 아래 2째 자리까지 표기 - 사분위수를 이용한 방법 Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과를 이상치로 판단 ( IQR = Q3 - Q1) 4. 이상치 처리 - 이상치 제거 : 정상범주에 있는 데..
1. 라이브러리 - numpy API : https://numpy.org/doc/stable/reference/ - pandas API : https://pandas.pydata.org/pandas-docs/stable/reference/index.html 2. 통계 분석 개요 모집단(population) : 연구 대상 데이터 전체 집합 모수(parameter) : 모집단의 특성을 나타내는 수치 표본(sample) : 모집단에서 추출한 일부 데이터 통계량(statistic) : 표본의 특성을 나타내는 수치 모집단의 모수 표본의 통계량 모평균 표본평균 모분산 표본분산 모표준편차 표본표준편차 3. pandas의 var()와 numpy의 var()가 다른 이유? # Delta Degrees of Freedom..