0netw0m1ra

[009] 데이터 및 dtype 변경 본문

빅데이터분석기사 실기

[009] 데이터 및 dtype 변경

M1RA 2022. 6. 8. 18:25

1. 데이터 타입 변경의 필요성

파일을 읽어 DataFrame 생성시 columns 별로 dtype이 자동 결정됨

대부분의 경우, 숫자는 int / float, 나머지는 object(문자열)로 결정됨

데이터 타입 변경 전에 데이터 조작이 필요할 수 있음(ex. 불필요 문자/콤마/공백 제거, 단위 변환)

- dtype 자동 결정

pd.read_csv()    pd.read_excel()    pd.read_table()

- 데이터 타입 변경

x.astype()    pd.to_timedelta()    pd.to_datetime()    pd.Categorical()

 

2. 데이터의 dtype 확인 방법

- DataFrame.info() : dtype 뿐 아니라 Non Null, Memory의 정보까지 표시됨

- DataFrame.dtypes : 각 columns 별 dtype 확인

- Series.dtype : Series의 dtype 확인

3. 데이터 타입 변경 방법

- Series.astype(타입)

- 타입 표시 방법

    'int', 'int32', 'int64', 'float', 'str', 'category',... 등의 문자열로 지정

    np.int16, np.float32, np.datetime64,... 등의 numpy 타입으로 지정

- numpy 타입으로 지정하기 위해서는 import numpy as no를 먼저 실행하여야 함

 

4. 데이터 값 변경 방법

- Series.replace(변경대상, 변경내용)

- Series.replace([변경대상1, 변경대상2, ...], [변경내용1, 변경내용2, ...])

- Series.replace({변경대상1:변경내용1, 변경대상2:변경내용2, ...})

- DataFrame도 replace 메서드 있음

- replace 는 기본적으로 값 전체를 변경대상으로 지정함

- regex=True를 사용하면 변경대상을 일부 내용만 대상으로 지정할 수 있음

- regex => regular expression(정규식, 정규표현식)

- replace를 사용하여 제거할 수 있지만, Accessor 중 str을 사용해서도 제거할 수 있음

데이터 타입 변경

 

 

 

5. 원래 데이터의 값 별 개수 확인

- Series.value_counts() : 값 별 개수를 Series로 반환

- 개수가 많은 것부터 내림차순 정렬되어 반환됨

- 값이 index, 개수가 value로 사용됨

 

6. 인덱스 index의 정렬

- DataFrame / Series.sort_index(ascending=True)

https://0netw0m1ra.tistory.com/210

 

7. 파일 수정한 후 저장

8. 파일 불러올 때 쓸모없는 첫 인덱스 제거

 

<출처>

인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 및 dtype 변경 1/2, 데이터 및 dtype 변경 2/2

https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC