본문 바로가기
파이썬/파이썬 데이터 분석, 데이터처리

Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출

by SeH_ 2023. 1. 15.
반응형

나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 


1. 데이터 분석 

describe() 함수를 이용하여 데이터를 자동으로 분석합니다. 

 

# 데이터 확인
#print(df.describe())
df = df.describe()
df.index.name = '분석'
print(df)
df.to_excel('분석.xlsx')

 

계산을 할 수 있는 데이터에 대해 자동으로 계산해주는 기능입니다. (데이터 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 불러옵니다.)

 

이런 식으로 원하는 row도 가져올 수 있죠. 

import pandas as pd 


df = pd.read_excel('score.xlsx')
df.set_index('순번', inplace = True)


print(df.head(7)) # 처음 7개의 row를 가져옵니다.
print(df.tail(3)) # 마지막 3개 row 가져옴

2. 데이터 parsing

 



# row x column 개수(index 제외)
print(df.shape)

# series 확인
print(df['키'].describe())
print(df['키'].max())
print(df['키'].nlargest(3))
print(df['키'].mean())

print(df['키'].sum())

print(df['SW특기'].count())
# None 데이터 반환 x 

print(df['학교'].unique())
#학교 중복 x
print(df['학교'].nunique())
# 2개

df.shape를 통해 row, column이 몇 개 있는지 확인할 수 있습니다.

 

엑셀 데이터 중 하나의 데이터가 필요할 때, 저번 시간에 배운 Series를 통해 데이터를 쉽게 parsing할 수 있습니다.

 

이 중 맘에 들었던 기능은 다음과 같습니다.

- count()로, None을 제외한 data의 개수를 가져오는 기능

- unique()로, 원하는 column 데이터를 중복 없이 array로 추출하는 기능

>> ['북산고' '능남고']


3. Column 추출 

print(df['이름'])
print(df[['이름','키']])
print(df.columns[0]) #이름
print(df[df.columns[0]]) # df 이름과 같을 때 응용

# Slicing 
# 몇 명의 영어점수

print(df['영어'][0:5])

print(df[['이름','키']][0:3])

print(df[3:])

 

 

 

 

 

 

-

댓글