일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- pandas
- wireshark
- ubuntu
- 빅데이터분석기사
- 빅데이터 분석기사
- tcache
- pwnable
- mariadb
- [EduAtoZ]
- AWS Cloud
- 빅데이터분석기사 실기
- 풀이
- 인프런
- error
- centos7
- Python
- ios frida
- AWS
- dreamhack
- VS Code 오류
- Linux
- 클라우드
- 워게임
- 빅데이터 분석기사 실기
- Cloud
- FSB
- 보안뉴스
- nmcli
- Dreamhack.io
- 빅분기 실기
- Today
- Total
0netw0m1ra
[009] 데이터 및 dtype 변경 본문
1. 데이터 타입 변경의 필요성
파일을 읽어 DataFrame 생성시 columns 별로 dtype이 자동 결정됨
대부분의 경우, 숫자는 int / float, 나머지는 object(문자열)로 결정됨
데이터 타입 변경 전에 데이터 조작이 필요할 수 있음(ex. 불필요 문자/콤마/공백 제거, 단위 변환)
- dtype 자동 결정
pd.read_csv() pd.read_excel() pd.read_table()
- 데이터 타입 변경
x.astype() pd.to_timedelta() pd.to_datetime() pd.Categorical()
2. 데이터의 dtype 확인 방법
- DataFrame.info() : dtype 뿐 아니라 Non Null, Memory의 정보까지 표시됨
- DataFrame.dtypes : 각 columns 별 dtype 확인
- Series.dtype : Series의 dtype 확인
3. 데이터 타입 변경 방법
- Series.astype(타입)
- 타입 표시 방법
'int', 'int32', 'int64', 'float', 'str', 'category',... 등의 문자열로 지정
np.int16, np.float32, np.datetime64,... 등의 numpy 타입으로 지정
- numpy 타입으로 지정하기 위해서는 import numpy as no를 먼저 실행하여야 함
4. 데이터 값 변경 방법
- Series.replace(변경대상, 변경내용)
- Series.replace([변경대상1, 변경대상2, ...], [변경내용1, 변경내용2, ...])
- Series.replace({변경대상1:변경내용1, 변경대상2:변경내용2, ...})
- DataFrame도 replace 메서드 있음
- replace 는 기본적으로 값 전체를 변경대상으로 지정함
- regex=True를 사용하면 변경대상을 일부 내용만 대상으로 지정할 수 있음
- regex => regular expression(정규식, 정규표현식)
- replace를 사용하여 제거할 수 있지만, Accessor 중 str을 사용해서도 제거할 수 있음
5. 원래 데이터의 값 별 개수 확인
- Series.value_counts() : 값 별 개수를 Series로 반환
- 개수가 많은 것부터 내림차순 정렬되어 반환됨
- 값이 index, 개수가 value로 사용됨
6. 인덱스 index의 정렬
- DataFrame / Series.sort_index(ascending=True)
https://0netw0m1ra.tistory.com/210
7. 파일 수정한 후 저장
8. 파일 불러올 때 쓸모없는 첫 인덱스 제거
<출처>
인프런 - [EduAtoZ] 빅데이터분석기사 실기 대비 Part2. 데이터 및 dtype 변경 1/2, 데이터 및 dtype 변경 2/2
'빅데이터분석기사 실기' 카테고리의 다른 글
[011] 데이터 정렬 - top3, top5 (0) | 2022.06.09 |
---|---|
[010] datatime category - dtype 변경 (0) | 2022.06.09 |
[008] pandas 데이터 구조 (0) | 2022.06.08 |
[007] python - map 함수, comprehension (0) | 2022.06.07 |
[006] python - enumerate, zip함수 (0) | 2022.06.07 |