일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- error
- Cloud
- mariadb
- wireshark
- 클라우드
- AWS
- dreamhack
- AWS Cloud
- pandas
- 빅데이터분석기사
- nmcli
- Dreamhack.io
- FSB
- [EduAtoZ]
- ubuntu
- 빅분기 실기
- 빅데이터 분석기사 실기
- tcache
- 워게임
- 인프런
- Linux
- ios frida
- 빅데이터분석기사 실기
- centos7
- 빅데이터 분석기사
- pwnable
- VS Code 오류
- 보안뉴스
- 풀이
- Python
- Today
- Total
목록분류 전체보기 (204)
0netw0m1ra
1. 파일 가져오기 - csv 파일 가져오기 csv파일은 컬럼 구분이 콤마(,)로 이루어진 파일 df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴 DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장 index는 제외하고 저장하기 위해서는 index=False로 지정 2. 결측치 확인 - 결측치 값이 없을 경우 NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함 - 결측치 확인 DataFrame.isna() : 결측치에 대해 True, 아니면 False DataFrame.isnull() : DataFrame.isna()와 동일함 DataFrame.notna(..
1. 통계값 구하기 - DataFrame.describe() : 적용 가능 컬럼에 대해 count, mean, std, min, max, Q1, Q2, Q3 등의 통계값 구하기 describe()는 수치형 자료에 대해서만 계산해서 보여줌 min, max는 object(string) 형태도 포함해서 계산됨. 따라서, 문자열이 포함되어 정렬됨 문자열 정렬시에는 문자의 코드값을 사용함 -> ord(문자) - Series.count() : 개수 - Series.sum() : 합계 - Series.mean() : 평균 - Series.std() : 표준편차 - Series.var() : 분산 - Series.median() : 중앙값 - Series.mode() : 최빈값 - Series.quantile() : ..
1. Series의 value가 목록에 포함된 내용인지 확인 - Series.isin([내용1, 내용2, ...]) : Series에 포함된 내용이 목록에 있는 경우 True, 없으면 False인 bool series 반환(boolean indexing에 사용) 2. Series의 str Accessor 사용 - str.contains('문자열') : 특정 문자열을 포함하는지 아닌지 판단(반환 : True/False) - str.upper() : 영문자를 소문자->대문자 - str.lower() : 영문자를 대문자->소문자 - 세부 내용 : https://pandas.pydata.org/docs/reference/series.html#string-handling 3. Series의 데이터를 list 및 ..
1. Boolean indexing 사용하여 조건에 맞는 데이터 가져오기 - DataFrame.loc[조건, :] : 앞은 행에 대한 조건, 뒤에는 열에 대한 것 - DataFrame[조건] - 조건은 boolean dtype이어야 하며 행의 수와 같아야 함 - 복잡한 조건 작성 (조건1) | (조건2) : 조건1 또는 조건2를 만족하는 데이터 (조건1) & (조건2) : 조건1, 조건2 모두 만족하는 데이터 ~(조건) : 조건이 거짓인 데이터 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 검색, boolean indexing https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84..
1. 데이터 정렬하기 - DataFrame.sort_values(컬럼명, ascending=True) - DataFrame.sort_values([컬럼명1, 컬럼명2, ...], ascending=[...]) - 오름차순이 기본이며, ascending=False를 사용하여 내림차순 지정 - 1차 기준, 2차 기준 등 여러 개 기준이 존재하는 경우 1차 기준 정렬 된 후, 1차 기준이 같은 것 내부에서 2차 기준으로 정렬됨 정렬방법은 각 기준별로 부여하거나 1개만 부여할 수 있음 인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 정렬로 TOP3, TOP5 찾기 https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0..
1. datetime, category 타입변경 - pd.to_datetime(Series, format='형식') %Y : 4글자 년도, %y : 2글자 년도, %m : 2글자 월, %d : 2글자 일 다양한 형식 문자들 : https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior format의 지정이 필수는 아님 - pd.Categorical(Series, categories=['범주1', '범주2', ...], ordered=None) ordered=True 사용 시 순서있는 범주형, 정렬시 정해진 순서가 사용됨 categories, ordered의 지정이 필수는 아님 인프런 - [EduAtoZ] 빅데이터분석기사 실..
1. 데이터 타입 변경의 필요성 파일을 읽어 DataFrame 생성시 columns 별로 dtype이 자동 결정됨 대부분의 경우, 숫자는 int / float, 나머지는 object(문자열)로 결정됨 데이터 타입 변경 전에 데이터 조작이 필요할 수 있음(ex. 불필요 문자/콤마/공백 제거, 단위 변환) - dtype 자동 결정 pd.read_csv() pd.read_excel() pd.read_table() - 데이터 타입 변경 x.astype() pd.to_timedelta() pd.to_datetime() pd.Categorical() 2. 데이터의 dtype 확인 방법 - DataFrame.info() : dtype 뿐 아니라 Non Null, Memory의 정보까지 표시됨 - DataFrame.d..
1. 파일 불러오기 2. 데이터 구조 확인 - DataFrame.head(n=5) : 처음부터 n개 행의 데이터 가져오기 - DataFrame.tail(n=5) : 마지막 n개 행의 데이터 가져오기 - DataFrame.info(memory_usage='deep') : 데이터 프레임의 row 개수 및 각 columns의 Non null, dtype 정보 및 메모리 사용량을 확인함, object는 문자열을 의미함 - DataFrame.shape : 데이터프레임의 행, 열의 수를 tuple로 반환 3. DataFrame 한 개의 columns은 Series - DataFrame[컬럼명] : Series - DataFrame[[컬럼명1, 컬럼명2, ...]] : DataFrame 4. Series 구성요소 -..