일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ubuntu
- 빅데이터 분석기사 실기
- Linux
- FSB
- 클라우드
- Python
- [EduAtoZ]
- centos7
- 빅데이터분석기사
- dreamhack
- tcache
- 풀이
- pandas
- Cloud
- ios frida
- pwnable
- 빅데이터 분석기사
- 인프런
- Dreamhack.io
- AWS Cloud
- 워게임
- nmcli
- VS Code 오류
- wireshark
- 보안뉴스
- mariadb
- error
- 빅분기 실기
- AWS
- 빅데이터분석기사 실기
- Today
- Total
목록pandas (6)
0netw0m1ra
1. 데이터 변환(Transform) - 이상치를 완화하거나, 정규분포가 되도록 하기 위해 사용함 - numpy의 log1p, sqrt, expm1, power 등의 함수 사용 log1p, sqrt 는 큰 값을 작게 만들어 주며, 오른쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용 큰 이상치를 작게 만들 수 있음 expm1, power는 작은 값을 크게 만들어 주며, 왼쪽 꼬리가 긴 분포를 정규분포로 변환하는데 사용함 2. np.log 3. 변환된 데이터 다시 원본으로 되돌리기 - log1p expm1 - sqrt np.power(?, 2) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 분포 변환 https://www.inflearn.com/course/%EB%B9%85%EB..
1. 라이브러리 - numpy API : https://numpy.org/doc/stable/reference/ - pandas API : https://pandas.pydata.org/pandas-docs/stable/reference/index.html 2. 통계 분석 개요 모집단(population) : 연구 대상 데이터 전체 집합 모수(parameter) : 모집단의 특성을 나타내는 수치 표본(sample) : 모집단에서 추출한 일부 데이터 통계량(statistic) : 표본의 특성을 나타내는 수치 모집단의 모수 표본의 통계량 모평균 표본평균 모분산 표본분산 모표준편차 표본표준편차 3. pandas의 var()와 numpy의 var()가 다른 이유? # Delta Degrees of Freedom..
1. 특정 문자열이 포함된 행 가져오기 - Series.str.contains(문자열) : 문자열이 포함된 행은 True, 아니면 False인 Series 반환 - DataFrame.loc[조건, :] : 조건이 True인 행만 가져오기 2. 통계값 알아보기 - Series.count() : 개수 - Series.sum() : 합계 - Series.mean() : 평균 - Series.std() : 표준편차 - Series.var() : 분산 - Series.median() : 중앙값 - Series.mode() : 최빈값 - Series.cumsum() : 누적합 - Series.quantile([0.25, 0.5, 0.75]) : 분위수 3. 실습 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대..
1. Boolean indexing 사용하여 조건에 맞는 데이터 가져오기 - DataFrame.loc[조건, :] : 앞은 행에 대한 조건, 뒤에는 열에 대한 것 - DataFrame[조건] - 조건은 boolean dtype이어야 하며 행의 수와 같아야 함 - 복잡한 조건 작성 (조건1) | (조건2) : 조건1 또는 조건2를 만족하는 데이터 (조건1) & (조건2) : 조건1, 조건2 모두 만족하는 데이터 ~(조건) : 조건이 거짓인 데이터 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 검색, boolean indexing https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84..
1. 파일 불러오기 2. 데이터 구조 확인 - DataFrame.head(n=5) : 처음부터 n개 행의 데이터 가져오기 - DataFrame.tail(n=5) : 마지막 n개 행의 데이터 가져오기 - DataFrame.info(memory_usage='deep') : 데이터 프레임의 row 개수 및 각 columns의 Non null, dtype 정보 및 메모리 사용량을 확인함, object는 문자열을 의미함 - DataFrame.shape : 데이터프레임의 행, 열의 수를 tuple로 반환 3. DataFrame 한 개의 columns은 Series - DataFrame[컬럼명] : Series - DataFrame[[컬럼명1, 컬럼명2, ...]] : DataFrame 4. Series 구성요소 -..
- 다양한 형태의 file, 생성자를 사용해 dataframe 만듬 - dataframe, series, index 등의 객체는 ndarray 기반으로 데이터 처리, 분석을 수행함 - 정형/반정형 데이터 pandas 데이터 탐색, 처리, 분석 - 데이터 분석 1) 상태 분석 : 데이터의 상태 파악(df.types, df.columns, df.info, df.describe) 2) 필요 데이터 추출 : indexing 사용 3) index 변경, 정렬 : set_index, reset_index, sort_index, sort_value 4) data cleaning : NA value 처리, 이상치 처리, 데이터 변환 등 5) dtype 확인 및 변경 : 필요 dtype 변경 6) 데이터 병합 : pd...