0netw0m1ra

[015] csv 파일 가져오기, 결측치 확인 및 처리 본문

빅데이터분석기사 실기

[015] csv 파일 가져오기, 결측치 확인 및 처리

M1RA 2022. 6. 13. 13:09

1. 파일 가져오기

- csv 파일 가져오기

    csv파일은 컬럼 구분이 콤마(,)로 이루어진 파일

    df = pd.read_csv(파일이름) : csv 형식의 파일을 읽어 DataFrame 객체로 가져옴

    DataFrame.to_csv(파일이름, index=True) : DataFrame을 csv 파일로 저장

                                                                         index는 제외하고 저장하기 위해서는 index=False로 지정

결측치가 확인됨

2. 결측치 확인

- 결측치

    값이 없을 경우

    NaN, NaT, None 등으로 표기되며, NA Value, Missing Value라고 함

- 결측치 확인

    DataFrame.isna() : 결측치에 대해 True, 아니면 False

    DataFrame.isnull() : DataFrame.isna()와 동일함

    DataFrame.notna() : 결측치가 아닌 것에 대해 True, 결측치면 False

    DataFrame.notnull() : DataFrame.isnull()과 동일함

    Series에도 결측치 확인을 위한 isna() ~ notnull()의 메서도 있음

    DataFrame.isna().sum() : 결측치에 대해 컬럼별 개수

- 데이터 종류 확인

    주로 범주형 데이터에 사용함

        성별, 지역, 부서 등의 몇 개의 그룹으로 표현되는 데이터

        숫자/문자열로 표현될 수 있음

    Series.unique() : 결측치를 포함하며, 중복을 제외한 데이터의 종류를 ndarray로 반환

    Series.value_counts() : 결측치를 포함하지 않으며, 데이터 종류별 개수를 Series로 반환

3. 결측치 처리

- fillna() : NaN 값에 대해 0으로 채워줌

 

 

 

 

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. csv 파일 가져오기, 결측치 확인하기, 결측치 처리, df.fillna(값)

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC