Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출

나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다.

1. 데이터 분석

describe() 함수를 이용하여 데이터를 자동으로 분석합니다.

# 데이터 확인
#print(df.describe())
df = df.describe()
df.index.name = '분석'
print(df)
df.to_excel('분석.xlsx')

계산을 할 수 있는 데이터에 대해 자동으로 계산해주는 기능입니다. (데이터 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 불러옵니다.)

이런 식으로 원하는 row도 가져올 수 있죠.

import pandas as pd 


df = pd.read_excel('score.xlsx')
df.set_index('순번', inplace = True)


print(df.head(7)) # 처음 7개의 row를 가져옵니다.
print(df.tail(3)) # 마지막 3개 row 가져옴

2. 데이터 parsing



# row x column 개수(index 제외)
print(df.shape)

# series 확인
print(df['키'].describe())
print(df['키'].max())
print(df['키'].nlargest(3))
print(df['키'].mean())

print(df['키'].sum())

print(df['SW특기'].count())
# None 데이터 반환 x 

print(df['학교'].unique())
#학교 중복 x
print(df['학교'].nunique())
# 2개

df.shape를 통해 row, column이 몇 개 있는지 확인할 수 있습니다.

엑셀 데이터 중 하나의 데이터가 필요할 때, 저번 시간에 배운 Series를 통해 데이터를 쉽게 parsing할 수 있습니다.

이 중 맘에 들었던 기능은 다음과 같습니다.

- count()로, None을 제외한 data의 개수를 가져오는 기능

- unique()로, 원하는 column 데이터를 중복 없이 array로 추출하는 기능

>> ['북산고' '능남고']

3. Column 추출

print(df['이름'])
print(df[['이름','키']])
print(df.columns[0]) #이름
print(df[df.columns[0]]) # df 이름과 같을 때 응용

# Slicing 
# 몇 명의 영어점수

print(df['영어'][0:5])

print(df[['이름','키']][0:3])

print(df[3:])

저작자표시 (새창열림)

'파이썬 > 파이썬 데이터 분석, 데이터처리' 카테고리의 다른 글

Pandas) 데이터 분석 7편, 데이터 필터링, and 및 or 등 다양한 조건, nan 처리 (1)	2023.01.15
Pandas) 데이터 분석 6편, loc, iloc의 이해 (0)	2023.01.15
Pandas) 데이터 분석 3편, 파이썬으로 만든 데이터를 csv, excel 파일로 저장 및 읽기 (0)	2023.01.15
Pandas) 데이터 분석 2편, 2차원 데이터 DataFrame 만들기 with Dictionary, (표 데이터 파이썬으로 만들기), 인덱스 지정하기 (0)	2023.01.15
Pandas) 데이터 분석 1편, 1차원 데이터 Series 만들기 (행 데이터 파이썬으로 만들기) (0)	2023.01.15

Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출

'파이썬 > 파이썬 데이터 분석, 데이터처리' 카테고리의 다른 글

댓글

티스토리툴바

Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출

'파이썬 > 파이썬 데이터 분석, 데이터처리' 카테고리의 다른 글

관련글

댓글

티스토리툴바