Just Do IT

09. Pandas 기초 - 결측치 처리 (fillna, dropna) 본문

데이터사이언스-코딩/Pandas

09. Pandas 기초 - 결측치 처리 (fillna, dropna)

풀용 2022. 1. 28. 01:50

본 포스팅은 유튜브 나도코딩님의 판다스 강의를 정리하여 만들었습니다.
https://www.youtube.com/watch?v=PjhlUzp_cU0

결측치 처리가 필요한 이유

우리가 실제로 접하는 데이터에는 수많은 결측치들이 존재한다. 항상 완벽하게 정돈되고 채워진 데이터를 만날 수는 없다. 따라서 결측치를 잘 처리하는 것도 굉장히 중요하다.

1. Data 준비

import pandas as pd
df = pd.read_excel('score.xlsx', index_col = '지원번호')
df
  • 출력 결과

2. 데이터 채우기

  1. fillna() 함수로 모든 NaN 데이터를 채운다.
df.fillna('없음')
  1. inplace = True로 해주지 않으면 실제 데이터는 변하지 않는다.
df['SW특기'].fillna('확인 중',inplace = True)
  • 출력 결과

3. 데이터 삭제

  1. dropna() 함수로 NaN 데이터가 포함된 행 or 열을 삭제한다. fillna()와 같이 inplace로 실제 데이터에 반영시킬 수 있다.
df.dropna()
  • 출력 결과
  1. dropna()에 axis, how 파라미터를 이용할 수 있다.
  • axis : index or columns 가 들어갈 수 있으며 index는 NaN이 있는 row, columns는 NaN이 있는 col을 삭제한다.
  • how : any or all가 들어갈 수 있으며 any는 해당 row or col에 하나라도 NaN이 있으면 해당 row or col을 지우고 all은 전체가 NaN일때 지운다.
df.dropna(axis='index',how='any')
  • 출력 결과
df.dropna(axis='columns',how='any')
  • 출력 결과
Comments