일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- [EduAtoZ]
- 빅데이터분석기사
- 인프런
- pandas
- 빅데이터분석기사 실기
- tcache
- Python
- centos7
- 클라우드
- Dreamhack.io
- ubuntu
- AWS Cloud
- pwnable
- VS Code 오류
- dreamhack
- 빅데이터 분석기사 실기
- error
- FSB
- 워게임
- 빅분기 실기
- nmcli
- Cloud
- ios frida
- 보안뉴스
- 풀이
- mariadb
- wireshark
- 빅데이터 분석기사
- AWS
- Linux
- Today
- Total
0netw0m1ra
[015] csv 파일 가져오기, 결측치 확인 및 처리 본문
1. 파일 가져오기
- csv 파일 가져오기
csv파일은 컬럼 구분이 콤마(,)로 이루어진 파일
df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴
DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장
index는 제외하고 저장하기 위해서는 index=False로 지정
2. 결측치 확인
- 결측치
값이 없을 경우
NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함
- 결측치 확인
DataFrame.isna() : 결측치에 대해 True, 아니면 False
DataFrame.isnull() : DataFrame.isna()와 동일함
DataFrame.notna() : 결측치가 아닌 것에 대해 True, 결측치면 False
DataFrame.notnull() : DataFrame.isnull()과 동일함
Series에도 결측치 확인을 위한 isna() ~ notnull()의 메서도 있음
DataFrame.isna().sum() : 결측치에 대해 컬럼별 개수
- 데이터 종류 확인
주로 범주형 데이터에 사용함
성별, 지역, 부서 등의 몇 개의 그룹으로 표현되는 데이터
숫자/문자열로 표현될 수 있음
Series.unique() : 결측치를 포함하며, 중복을 제외한 데이터의 종류를 ndarray로 반환
Series.value_counts() : 결측치를 포함하지 않으며, 데이터 종류별 개수를 Series로 반환
3. 결측치 처리
- fillna() : NaN 값에 대해 0으로 채워줌
<출처>
인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. csv 파일 가져오기, 결측치 확인하기, 결측치 처리, df.fillna(값)
'빅데이터분석기사 실기' 카테고리의 다른 글
[017] DataFrame 컬럼/행 추가 및 삭제 (0) | 2022.06.13 |
---|---|
[016] 컬럼별 함수 적용 - dataframe (0) | 2022.06.13 |
[014] Series 통계값 (0) | 2022.06.13 |
[013] isin(), str Accessor (0) | 2022.06.13 |
[012] 데이터 검색(boolean indexing) (0) | 2022.06.09 |