일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- error
- Dreamhack.io
- dreamhack
- centos7
- wireshark
- 클라우드
- 워게임
- [EduAtoZ]
- 빅데이터 분석기사 실기
- Python
- AWS
- 빅데이터분석기사
- mariadb
- 빅데이터 분석기사
- 빅데이터분석기사 실기
- Linux
- AWS Cloud
- VS Code 오류
- 풀이
- Cloud
- ios frida
- tcache
- pandas
- ubuntu
- 보안뉴스
- 빅분기 실기
- FSB
- 인프런
- nmcli
- pwnable
- Today
- Total
목록빅데이터분석기사 실기 (53)
0netw0m1ra
1. 여러 개의 DataFrame을 합친 경우, index 번호 RangeIndex로 새롭게 부여 - pd.concat([df1, df2, ...], ignore_index=True) - DataFrame.index = pd.RangeIndex(len(df)) 2. 여러 개의 DataFrame을 합친 경우 index 번호를 RangeIndex로 새롭게 부여 - pd.concat([df1, df2, ...], ignore_index=True) - DataFrame.index = pd.RangeIndex(len(df)) 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. index 번호 정리하기 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%..
1. 파일 합치기 - 컬럼명이 같을 때와 다를 때 비교 - axis = 1 설정 : 왼쪽에서 오른쪽으로 합치기 2. 실습 3. 참고용 - 파일이 많을 때 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 여러 개의 파일 합치기 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC
1. 그룹별 통계치 구하기 - DataFrame.groupby(컬럼명).적용할통계함수() DataFrame의 함수 적용 가능 컬럼들에 대해 그룹별 통계치를 구함 통계함수에는 sum, mean, std, var, min, max, count, quantile 등이 있음 - DataFrame.groupby(컬럼명)[컬럼명].적용할통계함수() 특정 컬럼(들)에 대한 결과만 확인할 때 [컬럼명] : 결과가 Series [[컬럼명]] : 결과가 DataFrame [[컬럼명1, 컬럼명2, ...]] : 결과 DataFrame - DataFrame.groupby(컬럼명)[컬럼명].agg([통계함수1, 통계함수2, ....])를 사용함 여러 개의 통계함수를 적용 통계함수를 문자열 형식으로 사용 가능 2. 행, 열에 모..
1. columns, Index 상호 변경 - DataFrame.set_index(컬럼명) : 지정한 컬럼을 index로 설정 - DataFrame.set_index([컬럼명1, 컬럼명2, ...]) : 컬럼 목록을 index(Multi index)로 설정 columns에서 index 쪽으로 이동됨, 기존 index는 제거됨 - DataFrame.reset_index() : 모든 index가 columns로 이동됨 index는 RangeIndex로 대체됨 2. Series -> DataFrame 형태로 변경 3. DataFrame 행/열 전환 - DataFrame.T : index, columns의 위치가 바뀜 4. DataFrame 컬럼 추가 - DataFrame.insert(위치, 컬럼, 값) : i..
1. Series 연산 - Series 끼리 또는 Series와 스칼라는 다양한 연산을 할 수 있음 - index에 맞춰 element wise 연산됨 산술연산(수치) : + - * / // % 비교연산(True/False) : > =
1. 각 컬럼별 함수 적용 - DataFrame.apply(함수) : Series로 결과가 반환됨 - DataFrame.apply([함수1, 함수2, ...]) : DataFrame으로 결과가 반환됨 - 사용자 정의 함수, 외부 함수, 내장 함수 등 다양한 함수를 사용할 수 있음 - Series의 통계 함수들은 문자열 형태로 사용할 수 있음 : min, max, count, std, var, mean, median 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 결측치 처리, df.fillna(값) https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC..
1. 파일 가져오기 - csv 파일 가져오기 csv파일은 컬럼 구분이 콤마(,)로 이루어진 파일 df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴 DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장 index는 제외하고 저장하기 위해서는 index=False로 지정 2. 결측치 확인 - 결측치 값이 없을 경우 NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함 - 결측치 확인 DataFrame.isna() : 결측치에 대해 True, 아니면 False DataFrame.isnull() : DataFrame.isna()와 동일함 DataFrame.notna(..
1. 통계값 구하기 - DataFrame.describe() : 적용 가능 컬럼에 대해 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기 describe()는 수치형 자료에 대해서만 계산해서 보여줌 min, max는 object(string) 형태도 포함해서 계산됨. 따라서, 문자열이 포함되어 정렬됨 문자열 정렬시에는 문자의 코드값을 사용함 -> ord(문자) - Series.count() : 개수 - Series.sum() : 합계 - Series.mean() : 평균 - Series.std() : 표준편차 - Series.var() : 분산 - Series.median() : 중앙값 - Series.mode() : 최빈값 - Series.quantile() : ..