Just Do IT

02. Pandas 기초 - DataFrame 본문

데이터사이언스-코딩/Pandas

02. Pandas 기초 - DataFrame

풀용 2022. 1. 27. 21:35

본 포스팅은 유튜브 나도코딩님의 판다스 강의를 정리하여 만들었습니다.
https://www.youtube.com/watch?v=PjhlUzp_cU0

 

 

DataFrame은 2차원 데이터로 Series들의 모음이다.

1. Data 준비

딕셔너리 형태의 데이터를 준비한다.

data = {
    '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
    '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
    '키' : [197, 184, 168, 187, 188, 202, 188, 190],
    '국어' : [90, 40, 80, 40, 15, 80, 55, 100],
    '영어' : [85, 35, 75, 60, 20, 100, 65, 85],
    '수학' : [100, 50, 70, 70, 10, 95, 45, 90],
    '과학' : [95, 55, 80, 75, 35, 85, 40, 95],
    '사회' : [85, 25, 75, 80, 10, 80, 35, 95],
    'SW특기' : ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']
}
data
  • 출력 결과
{'이름': ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'],
 '학교': ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'],
 '키': [197, 184, 168, 187, 188, 202, 188, 190],
 '국어': [90, 40, 80, 40, 15, 80, 55, 100],
 '영어': [85, 35, 75, 60, 20, 100, 65, 85],
 '수학': [100, 50, 70, 70, 10, 95, 45, 90],
 '과학': [95, 55, 80, 75, 35, 85, 40, 95],
 '사회': [85, 25, 75, 80, 10, 80, 35, 95],
 'SW특기': ['Python', 'Java', 'Javascript', '', '', 'C', 'PYTHON', 'C#']}

딕셔너리에서 Key값을 넣으면 그에 맞는 Value값을 return한다.

data['이름']
  • 출력 결과
['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협']

2. DataFrame 객체 생성

pd.DataFrame()으로 DataFrame을 생성할 수 있다.
Key값은 column이 되고 Value값은 해당 column의 내용으로 들어간다.

import pandas as pd
df = pd.DataFrame(data)
  • 출력 결과

2-1. Data 접근

간단한 방식으로 하나의 Series에 접근 할 수 있다.

df['이름']
  • 출력 결과
  • 0 채치수 1 정대만 2 송태섭 3 서태웅 4 강백호 5 변덕규 6 황태산 7 윤대협 Name: 이름, dtype: object

List형태로 column명을 넣으면 해당 column들에만 접근 할 수 있다.

df[['이름','키']]
  • 출력 결과

3. Index를 지정하여 DataFrame 객체 생성

DataFrame에 index파라미터를 넣어서 직접 index를 설정 할 수 있다. 여기서 index의 개수는 해당 dataframe의 열 개수와 같아야 한다.

df = pd.DataFrame(data, index=['1번','2번','3번','4번','5번','6번','7번','8번']) 
df
  • 출력 결과

당연히 해당 index를 통해 data에 접근 할 수 있다.

4. Column을 지정하여 DataFrame 객체 생성

DataFrame에 columns 파라미터를 넣어서 원하는 column만으로 DataFrame을 구성 할 수 있다. columns에 들어가는 리스트 순서로 DataFrame이 구성된다.

df = pd.DataFrame(data,columns=['이름','학교','키'])
df
  • 출력 결과
df = pd.DataFrame(data,columns=['이름','키','학교'])
df
  • 출력 결과
Comments