판다스를 통해 데이터 프레임의 열 데이터를 추출하는 방법을 알아보겠습니다!
열 단위 데이터 추출하기
데이터 프레임에서 열 데이터를 가져오려면 다음과 같이 가져올 수 있습니다.
데이터프레임명['컬럼명']
즉 데이터 프레임명뒤에 대괄호를 친후, 컬럼명을 작은 따옴표 사이에 명시해 주면됩니다.
그럼 실제로 어떻게 출력되는지 살펴봅시다.
열 데이터 추출
print(df['country'])
0 Afghanistan
1 Afghanistan
2 Afghanistan
3 Afghanistan
4 Afghanistan
5 Afghanistan
6 Afghanistan
7 Afghanistan
8 Afghanistan
9 Afghanistan
10 Afghanistan
11 Afghanistan
12 Albania
13 Albania
14 Albania
15 Albania
위 예제에서 df라는 데이터 프레임에서 'country' 열 데이터를 가져온 것을 확인할 수 있습니다.
열 데이터 타입 확인
print(type(df['country'])
열의 데이터 타입은 어떨까요? 한번 type를 통해서 확인해보겠습니다.
pandas.core.series.Series
위에서 볼 수 있듯, 열의 데이터 형식은 시리즈(Series)형식이라는 것을 알 수 있습니다.
즉 엑셀 처럼 행과 열의 데이터로 이뤄진 데이터 형식을 데이터 프레임.
해당 데이터시트의 열 1개를 바로 '시리즈'라고 합니다.
특정 열의 상위 데이터 추출 - head
print(df['country'].head())
데이터 프레임에서 head() 명령어를 통해 상위 5개의 데이터를 가져온 것처럼,
해당 열에서만 상위 5개 데이터를 가져 올 수 있다.
특정 열의 하위 데이터 추출 - tail
print(df['country'].tail())
마찬가지로 tail() 명령어를 통해 하위 5개의 데이터를 가져 올 수 있다.
여러개의 열 한번에 추출하기
위에서 살펴본 방법은 한번에 하나의 열을 가져오는 방식입니다.
판다스에서는 여러개의 열 데이터를 리스트 형식으로 전해주면 여러개의 열 데이터를 가져오는 방법도 제공합니다.
한번 직접 살펴보시죠!
subset = df[['country', 'year', 'pop']]
즉 위 처럼 df 데이터 프레임의 열을 리스트 형식으로 지정해주면,
해당 열의 데이터만 추출하여 subset에 저장합니다.
여기서는 열이 하나가 아닌 여러개이므로, 시리즈형식이 아닌 데이터 프레임 형식을 사용합니다.
출력