일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- centos7
- Linux
- 인프런
- nmcli
- 빅데이터분석기사 실기
- [EduAtoZ]
- error
- tcache
- 워게임
- FSB
- AWS
- 빅데이터 분석기사 실기
- 풀이
- dreamhack
- wireshark
- pandas
- ios frida
- 보안뉴스
- 빅데이터분석기사
- 빅분기 실기
- ubuntu
- Python
- Dreamhack.io
- AWS Cloud
- VS Code 오류
- 클라우드
- 빅데이터 분석기사
- Cloud
- mariadb
- pwnable
- Today
- Total
목록빅데이터분석기사 실기 (16)
0netw0m1ra
중요 1) score의 결과가 가장 높은 것이 좋음!! 중요 2) train과 test의 성능 차이가 크지 않은 것이 좋은 것!! 1. LogisticRegression - 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법 - https://ko.wikipedia.org/wiki/%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1_%ED%9A%8C%EA%B7%80 - 반복하면서 기울기 값을 갱신, 기울기 미분값이 0이 되는 지점을 찾음 - max_iter, tol 등을 변경하여 성능을 개선할 수 있음 - max_iter : 반복횟수 - tol : 허용오차, 반복을 중단하는 조건으로 사용됨 - panalty : panalty 종류 - C : panalty ..
1. Encoding(범주형 - 수치형) - Label Encoding : 값의 일련번호로 변경, 순서가 있는 경우, 항목이 적을 때 ex. '여성', '남성', '아이' : 0, 1, 2 '월', '화', '수', '목', '금', ... : 0, 1, 2, 3, ... category 타입의 cat.codes Series.replace()를 사용함 - One Hot Encoding : 범주의 개수만큼의 feature를 만들어냄, 순서가 없는 경우, 여러 개의 항목일 때 pd.get_dummies(Series/DataFrame) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 Encoding(범주형 - 수치형) https://www.inflearn.com/course/%EB%..
1. 데이터 변환(Transform) - 이상치를 완화하거나, 정규분포가 되도록 하기 위해 사용함 - numpy의 log1p, sqrt, expm1, power 등의 함수 사용 log1p, sqrt 는 큰 값을 작게 만들어 주며, 오른쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용 큰 이상치를 작게 만들 수 있음 expm1, power는 작은 값을 크게 만들어 주며, 왼쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용함 2. np.log 3. 변환된 데이터 다시 원본으로 되돌리기 - log1p expm1 - sqrt np.power(?, 2) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 분포 변환 https://www.inflearn.com/course/%EB%B9%85%EB..
1. 이상치(outlier) - 일반적인 값들과 많이 떨어진 위치의 데이터 - 평균은 이상치에 영향을 크게 받지만, 중앙값은 영향을 거의 받지 않음 2. 이상치 확인 - 그래프로 확인하는 방법 Series나 DataFrame의 경우, x.plot(kind = 'box') 또는 x.plot.box() 로 확인 가능 3. ESD(Extream Studentized Diviate)를 이용한 방법 - 평균으로 부터 3 표준편차 떨어진 값을 이상치로 판단 - tip에 대한 이상치 구하기, 소수점 아래 2째 자리까지 표기 - 사분위수를 이용한 방법 Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과를 이상치로 판단 ( IQR = Q3 - Q1) 4. 이상치 처리 - 이상치 제거 : 정상범주에 있는 데..
1. Series의 str Accessor 사용 - 세부 내용 : https://pandas.pydata.org/docs/reference/series.html#string-handling - Series.str.split() : whitespace(공백, 탭 등)을 기준으로 문자열 분리 ex. '서울특별시 종로구 ...' => [서울특별시, 종로구, ...] - Series.str[0] : Series가 여러 개의 요소가 있는 경우 그 첫 번째 요소 2. Series.uniques() : 중복 데이터의 제거 후 배열로 반환, NA value가 있다면 포함 3. Boolean Indexing 사용하여 조건에 맞는 데이터 가져오기 - DataFrame.loc[조건, :] - DataFrame[조건] - 조..
- UnicodeDecodeError 해결 1 ) encoding='cp949' 추가 해결 2 ) csv 파일을 메모장으로 읽어서 다른 이름으로 저장할 때 utf-8로 저장해서 이용하기 - DtypeWarning 경고 : 39, 44 인덱스의 타입 경고 해결 ) 타입을 직접 확인하고 미리 알려주기 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 행/열이 많은 csv 읽고 구조 확인하기 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. 그룹별 통계치 구하기 - DataFrame.groupby(컬럼명).적용할통계함수() DataFrame의 함수 적용 가능 컬럼들에 대해 그룹별 통계치를 구함 통계함수에는 sum, mean, std, var, min, max, count, quantile 등이 있음 - DataFrame.groupby(컬럼명)[컬럼명].적용할통계함수() 특정 컬럼(들)에 대한 결과만 확인할 때 [컬럼명] : 결과가 Series [[컬럼명]] : 결과가 DataFrame [[컬럼명1, 컬럼명2, ...]] : 결과 DataFrame - DataFrame.groupby(컬럼명)[컬럼명].agg([통계함수1, 통계함수2, ....])를 사용함 여러 개의 통계함수를 적용 통계함수를 문자열 형식으로 사용 가능 2. 행, 열에 모..
1. 파일 가져오기 - csv 파일 가져오기 csv파일은 컬럼 구분이 콤마(,)로 이루어진 파일 df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴 DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장 index는 제외하고 저장하기 위해서는 index=False로 지정 2. 결측치 확인 - 결측치 값이 없을 경우 NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함 - 결측치 확인 DataFrame.isna() : 결측치에 대해 True, 아니면 False DataFrame.isnull() : DataFrame.isna()와 동일함 DataFrame.notna(..