일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 워게임
- ubuntu
- 빅데이터분석기사
- mariadb
- 보안뉴스
- Linux
- 빅데이터 분석기사
- 빅데이터 분석기사 실기
- AWS
- wireshark
- pandas
- [EduAtoZ]
- tcache
- 인프런
- FSB
- error
- VS Code 오류
- 클라우드
- centos7
- pwnable
- dreamhack
- Cloud
- 빅분기 실기
- nmcli
- Python
- 빅데이터분석기사 실기
- ios frida
- 풀이
- Dreamhack.io
- AWS Cloud
- Today
- Total
목록전체 글 (204)
0netw0m1ra
1. 데이터 스케일링 - min-max normalization : 값의 범위를 [0, 1]로 변환 (xi - x.min()) / (x.max() - x.min()) - standardization : 특성의 값이 표준정규분포를 갖도록 변환(평균 0, 표준편차 1) (xi - x.mean()) / x.std() - sklearn의 MinMaxScaler, StandardScaler 사용 가능 스케일러의 fit_transform() 사용시 2차원의 데이터를 전달해야 함 (DataFrame도 2차원), 결과는 ndarray로 반환 됨 - scipy.stat의 zxcore 함수 사용 가능 1차원 데이터 가능 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 스케일링 https://ww..
1. 데이터 변환(Transform) - 이상치를 완화하거나, 정규분포가 되도록 하기 위해 사용함 - numpy의 log1p, sqrt, expm1, power 등의 함수 사용 log1p, sqrt 는 큰 값을 작게 만들어 주며, 오른쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용 큰 이상치를 작게 만들 수 있음 expm1, power는 작은 값을 크게 만들어 주며, 왼쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용함 2. np.log 3. 변환된 데이터 다시 원본으로 되돌리기 - log1p expm1 - sqrt np.power(?, 2) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 분포 변환 https://www.inflearn.com/course/%EB%B9%85%EB..
1. 이상치(outlier) - 일반적인 값들과 많이 떨어진 위치의 데이터 - 평균은 이상치에 영향을 크게 받지만, 중앙값은 영향을 거의 받지 않음 2. 이상치 확인 - 그래프로 확인하는 방법 Series나 DataFrame의 경우, x.plot(kind = 'box') 또는 x.plot.box() 로 확인 가능 3. ESD(Extream Studentized Diviate)를 이용한 방법 - 평균으로 부터 3 표준편차 떨어진 값을 이상치로 판단 - tip에 대한 이상치 구하기, 소수점 아래 2째 자리까지 표기 - 사분위수를 이용한 방법 Q1 - 1.5 * IQR 미만, Q3 + 1.5 * IQR 초과를 이상치로 판단 ( IQR = Q3 - Q1) 4. 이상치 처리 - 이상치 제거 : 정상범주에 있는 데..
1. 라이브러리 - numpy API : https://numpy.org/doc/stable/reference/ - pandas API : https://pandas.pydata.org/pandas-docs/stable/reference/index.html 2. 통계 분석 개요 모집단(population) : 연구 대상 데이터 전체 집합 모수(parameter) : 모집단의 특성을 나타내는 수치 표본(sample) : 모집단에서 추출한 일부 데이터 통계량(statistic) : 표본의 특성을 나타내는 수치 모집단의 모수 표본의 통계량 모평균 표본평균 모분산 표본분산 모표준편차 표본표준편차 3. pandas의 var()와 numpy의 var()가 다른 이유? # Delta Degrees of Freedom..
- value_counts() - reset_index() - 컬럼명 변경/추가 - 데이터 정렬 - quantile : 특정 비율 위치의 값 구하기 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 폐업비율표 작성 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. 특정 문자열이 포함된 행 가져오기 - Series.str.contains(문자열) : 문자열이 포함된 행은 True, 아니면 False인 Series 반환 - DataFrame.loc[조건, :] : 조건이 True인 행만 가져오기 2. 통계값 알아보기 - Series.count() : 개수 - Series.sum() : 합계 - Series.mean() : 평균 - Series.std() : 표준편차 - Series.var() : 분산 - Series.median() : 중앙값 - Series.mode() : 최빈값 - Series.cumsum() : 누적합 - Series.quantile([0.25, 0.5, 0.75]) : 분위수 3. 실습 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대..
1. Series 연산 - Series는 스칼라값과 연산 시 각 값과 스칼라 값의 연산이 이루어짐 - 결과는 Series가 됨 2. 날짜 변경 3. 현재 날짜 정보 알아오기 4. DataFrame.apply() 적용하기 - DataFrame.apply() 적용하지 않고 사용하기 - 위의 방식을 DataFrame.apply()로 변경하기 5. Series를 DataFrame으로 만들기 - pd.DataFrame(Series) - Series.to_frame() 6. DataFrame의 index 정렬하기 - DataFrame.sort_index() : 오름차순 정렬 - DataFrame.sort_index(ascending=False) : 내림차순 정렬 7. DataFrame의 전치행렬 구하기 - Data..
1. 결측치는 값이 없음을 나타냄 - NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함 2. 결측치 확인 - DataFrame.isna() : 결측치에 대해 True, 아니면 False - DataFrame.isnull() : DataFrame.isna()와 동일함 - DataFrame.notna() : 결측치가 아닌 것에 대해 True, 결측치면 False - DataFrame.notnull() : DataFrame.isnull()과 동일함 - Series에도 결측치 확인을 위한 isna() ~ notnull()의 메서드 있음 3. 개수 세기 - DataFrame.isna().sum() : 결측치에 대해 컬럼별 개수 - DataFrame.isna().sum(..
- str.strip('제거할 문자들') : 문자열의 앞/뒤에 불필요한 것을 제거함 제거할 문자들을 지정하지 않을 경우 whitespace를 제거함 - str.split('구분자') 구분자를 지정하지 않을 경우 whitespace를 기준으로 분리함 각 구분된 내용은 str[0], str[1], ... 등으로 접근 - str.join('구분자') 분리된 문자열을 구분자들 사이에 넣어 하나의 문자열로 만듦 구분자 지정을 생략할 수 없음 ex. str.join('') - str.replace(전, 후) 문자열의 일부 내용을 변경 가능함 변경전 내용을 찾아 변경후 내용으로 바꿈 (연습) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 전처리를 위한 str Accessor 추가 설명, ..
1. Series의 str Accessor 사용 - 세부 내용 : https://pandas.pydata.org/docs/reference/series.html#string-handling - Series.str.split() : whitespace(공백, 탭 등)을 기준으로 문자열 분리 ex. '서울특별시 종로구 ...' => [서울특별시, 종로구, ...] - Series.str[0] : Series가 여러 개의 요소가 있는 경우 그 첫 번째 요소 2. Series.uniques() : 중복 데이터의 제거 후 배열로 반환, NA value가 있다면 포함 3. Boolean Indexing 사용하여 조건에 맞는 데이터 가져오기 - DataFrame.loc[조건, :] - DataFrame[조건] - 조..