본문 바로가기

카테고리 없음

판다스(pandas) - 열 단위 데이터 추출

반응형

 

 

 

 

판다스를 통해 데이터 프레임의 열 데이터를 추출하는 방법을 알아보겠습니다!

 

 

열 단위 데이터 추출하기

데이터 프레임에서 열 데이터를 가져오려면 다음과 같이 가져올 수 있습니다.

 

 

데이터프레임명['컬럼명']

 

 

즉 데이터 프레임명뒤에 대괄호를 친후, 컬럼명을 작은 따옴표 사이에 명시해 주면됩니다.

 

그럼 실제로 어떻게 출력되는지 살펴봅시다.

 

 

열 데이터 추출

print(df['country'])
0       Afghanistan
1       Afghanistan
2       Afghanistan
3       Afghanistan
4       Afghanistan
5       Afghanistan
6       Afghanistan
7       Afghanistan
8       Afghanistan
9       Afghanistan
10      Afghanistan
11      Afghanistan
12          Albania
13          Albania
14          Albania
15          Albania

위 예제에서 df라는 데이터 프레임에서 'country' 열 데이터를 가져온 것을 확인할 수 있습니다.

 

 

열 데이터 타입 확인

print(type(df['country'])

열의 데이터 타입은 어떨까요? 한번 type를 통해서 확인해보겠습니다.

 

pandas.core.series.Series

위에서 볼 수 있듯, 열의 데이터 형식은 시리즈(Series)형식이라는 것을 알 수 있습니다.

즉 엑셀 처럼 행과 열의 데이터로 이뤄진 데이터 형식을 데이터 프레임.

해당 데이터시트의 열 1개를 바로 '시리즈'라고 합니다.

 

 

특정 열의 상위 데이터 추출 - head

print(df['country'].head())

데이터 프레임에서 head() 명령어를 통해 상위 5개의 데이터를 가져온 것처럼,

해당 열에서만 상위 5개 데이터를 가져 올 수 있다.

 

 

특정 열의 하위 데이터 추출 - tail

print(df['country'].tail())

마찬가지로 tail() 명령어를 통해 하위 5개의 데이터를 가져 올 수 있다.

 

 

여러개의 열 한번에 추출하기

 

위에서 살펴본 방법은 한번에 하나의 열을 가져오는 방식입니다.

판다스에서는 여러개의 열 데이터를 리스트 형식으로 전해주면 여러개의 열 데이터를 가져오는 방법도 제공합니다.

한번 직접 살펴보시죠!

subset = df[['country', 'year', 'pop']]

즉 위 처럼 df 데이터 프레임의 열을 리스트 형식으로 지정해주면,

해당 열의 데이터만 추출하여 subset에 저장합니다.

여기서는 열이 하나가 아닌 여러개이므로, 시리즈형식이 아닌 데이터 프레임 형식을 사용합니다.

 

출력

출력

 

반응형