일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 이진탐색 증명
- GPT-3
- Discrete Wavelet Transform
- chatGPT
- BERT
- binary search
- Binary Search Proof
- 선택정렬
- 선택정렬 증명
- haar matrix
- ChatGPT 설명
- Selection Sort
- Proof Selection Sort
- 이진탐색
Archives
- Today
- Total
Just Do IT
09. Pandas 기초 - 결측치 처리 (fillna, dropna) 본문
본 포스팅은 유튜브 나도코딩님의 판다스 강의를 정리하여 만들었습니다.
https://www.youtube.com/watch?v=PjhlUzp_cU0
결측치 처리가 필요한 이유
우리가 실제로 접하는 데이터에는 수많은 결측치들이 존재한다. 항상 완벽하게 정돈되고 채워진 데이터를 만날 수는 없다. 따라서 결측치를 잘 처리하는 것도 굉장히 중요하다.
1. Data 준비
import pandas as pd
df = pd.read_excel('score.xlsx', index_col = '지원번호')
df
- 출력 결과
2. 데이터 채우기
- fillna() 함수로 모든 NaN 데이터를 채운다.
df.fillna('없음')
- inplace = True로 해주지 않으면 실제 데이터는 변하지 않는다.
df['SW특기'].fillna('확인 중',inplace = True)
- 출력 결과
3. 데이터 삭제
- dropna() 함수로 NaN 데이터가 포함된 행 or 열을 삭제한다. fillna()와 같이 inplace로 실제 데이터에 반영시킬 수 있다.
df.dropna()
- 출력 결과
- dropna()에 axis, how 파라미터를 이용할 수 있다.
- axis : index or columns 가 들어갈 수 있으며 index는 NaN이 있는 row, columns는 NaN이 있는 col을 삭제한다.
- how : any or all가 들어갈 수 있으며 any는 해당 row or col에 하나라도 NaN이 있으면 해당 row or col을 지우고 all은 전체가 NaN일때 지운다.
df.dropna(axis='index',how='any')
- 출력 결과
df.dropna(axis='columns',how='any')
- 출력 결과
'데이터사이언스-코딩 > Pandas' 카테고리의 다른 글
11. Pandas 기초 - 함수 적용 (apply) (0) | 2022.01.28 |
---|---|
10. Pandas 기초 - 데이터 수정 (replace, drop) (0) | 2022.01.28 |
08. Pandas 기초 - 데이터 선택(조건) (0) | 2022.01.28 |
07. Pandas 기초 - 데이터 선택(loc, iloc) (0) | 2022.01.28 |
06. Pandas 기초 - 데이터 선택 (0) | 2022.01.28 |
Comments