일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 빅데이터분석기사 실기
- 보안뉴스
- wireshark
- FSB
- Dreamhack.io
- 클라우드
- 풀이
- 빅데이터 분석기사 실기
- 빅데이터분석기사
- 워게임
- ios frida
- 인프런
- Python
- tcache
- AWS Cloud
- Cloud
- VS Code 오류
- mariadb
- centos7
- Linux
- pandas
- pwnable
- dreamhack
- ubuntu
- 빅데이터 분석기사
- 빅분기 실기
- error
- [EduAtoZ]
- AWS
- nmcli
- Today
- Total
목록빅데이터분석기사 실기 (16)
0netw0m1ra
1. 통계값 구하기 - DataFrame.describe() : 적용 가능 컬럼에 대해 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기 describe()는 수치형 자료에 대해서만 계산해서 보여줌 min, max는 object(string) 형태도 포함해서 계산됨. 따라서, 문자열이 포함되어 정렬됨 문자열 정렬시에는 문자의 코드값을 사용함 -> ord(문자) - Series.count() : 개수 - Series.sum() : 합계 - Series.mean() : 평균 - Series.std() : 표준편차 - Series.var() : 분산 - Series.median() : 중앙값 - Series.mode() : 최빈값 - Series.quantile() : ..
1. Series의 value가 목록에 포함된 내용인지 확인 - Series.isin([내용1, 내용2, ...]) : Series에 포함된 내용이 목록에 있는 경우 True, 없으면 False인 bool series 반환(boolean indexing에 사용) 2. Series의 str Accessor 사용 - str.contains('문자열') : 특정 문자열을 포함하는지 아닌지 판단(반환 : True/False) - str.upper() : 영문자를 소문자->대문자 - str.lower() : 영문자를 대문자->소문자 - 세부 내용 : https://pandas.pydata.org/docs/reference/series.html#string-handling 3. Series의 데이터를 list 및 ..
1. Boolean indexing 사용하여 조건에 맞는 데이터 가져오기 - DataFrame.loc[조건, :] : 앞은 행에 대한 조건, 뒤에는 열에 대한 것 - DataFrame[조건] - 조건은 boolean dtype이어야 하며 행의 수와 같아야 함 - 복잡한 조건 작성 (조건1) | (조건2) : 조건1 또는 조건2를 만족하는 데이터 (조건1) & (조건2) : 조건1, 조건2 모두 만족하는 데이터 ~(조건) : 조건이 거짓인 데이터 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 검색, boolean indexing https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84..
1. 데이터 타입 변경의 필요성 파일을 읽어 DataFrame 생성시 columns 별로 dtype이 자동 결정됨 대부분의 경우, 숫자는 int / float, 나머지는 object(문자열)로 결정됨 데이터 타입 변경 전에 데이터 조작이 필요할 수 있음(ex. 불필요 문자/콤마/공백 제거, 단위 변환) - dtype 자동 결정 pd.read_csv() pd.read_excel() pd.read_table() - 데이터 타입 변경 x.astype() pd.to_timedelta() pd.to_datetime() pd.Categorical() 2. 데이터의 dtype 확인 방법 - DataFrame.info() : dtype 뿐 아니라 Non Null, Memory의 정보까지 표시됨 - DataFrame.d..
enumerate(iterable, start=0) - iterable의 item에 순서 번호가 함께 필요할 때 사용함 - next() 할 때마다 (index, item)의 tuple을 반환 - iterable의 item 개수 만큼 next()를 사용할 수 있음 zip(*iterable) - 동일한 개수로 이루어진 자료형의 같은 위치 item을 묶어줌 - zip 객체는 iterator - 두 개의 객체가 있을 때, 하나는 키로 하나는 데이터로 사용해 딕셔너리로 만들 수 있음 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part1. enumerate, zip 함수 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B..
- positional or keyword parameter (a, b, c) parameter 앞쪽으로 *, 뒤쪽으로 , / 가 없음 - positional only parameter (a, b, /) #python v3.8+) parameter 뒤쪽으로 , / 가 있음 - keyword only parameter (*, a, b) (*a, b, c) parameter 앞쪽으로 * , 가 있음(이름과 떨어진 상태로) - var-positional parameter (*a) parameter 이름에 *가 하나 붙어 있음 tuple 형태로 전달됨 "a=10" 과 같이 공백없게 쓰는 것이 좋음 - var-keyword parameter (**a) parameter 이름에 *이 두 개 붙어 있음 dict 형태..
- positional argument - keyword argument - default argument : 새로운 argument가 전달되지 않을 시 사용되는 기본 값 - python의 argument rule 함수 정의 시 : non-default arguent가 앞, defualt argument가 뒤에 위치 함수 호출 시 : positional argument가 앞, keyword argument가 뒤에 위치 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part1. argument 종류 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B..
- 다양한 형태의 file, 생성자를 사용해 dataframe 만듬 - dataframe, series, index 등의 객체는 ndarray 기반으로 데이터 처리, 분석을 수행함 - 정형/반정형 데이터 pandas 데이터 탐색, 처리, 분석 - 데이터 분석 1) 상태 분석 : 데이터의 상태 파악(df.types, df.columns, df.info, df.describe) 2) 필요 데이터 추출 : indexing 사용 3) index 변경, 정렬 : set_index, reset_index, sort_index, sort_value 4) data cleaning : NA value 처리, 이상치 처리, 데이터 변환 등 5) dtype 확인 및 변경 : 필요 dtype 변경 6) 데이터 병합 : pd...