반응형
나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다.
1. 데이터 분석
describe() 함수를 이용하여 데이터를 자동으로 분석합니다.
# 데이터 확인
#print(df.describe())
df = df.describe()
df.index.name = '분석'
print(df)
df.to_excel('분석.xlsx')
계산을 할 수 있는 데이터에 대해 자동으로 계산해주는 기능입니다. (데이터 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 불러옵니다.)
이런 식으로 원하는 row도 가져올 수 있죠.
import pandas as pd
df = pd.read_excel('score.xlsx')
df.set_index('순번', inplace = True)
print(df.head(7)) # 처음 7개의 row를 가져옵니다.
print(df.tail(3)) # 마지막 3개 row 가져옴
2. 데이터 parsing
# row x column 개수(index 제외)
print(df.shape)
# series 확인
print(df['키'].describe())
print(df['키'].max())
print(df['키'].nlargest(3))
print(df['키'].mean())
print(df['키'].sum())
print(df['SW특기'].count())
# None 데이터 반환 x
print(df['학교'].unique())
#학교 중복 x
print(df['학교'].nunique())
# 2개
df.shape를 통해 row, column이 몇 개 있는지 확인할 수 있습니다.
엑셀 데이터 중 하나의 데이터가 필요할 때, 저번 시간에 배운 Series를 통해 데이터를 쉽게 parsing할 수 있습니다.
이 중 맘에 들었던 기능은 다음과 같습니다.
- count()로, None을 제외한 data의 개수를 가져오는 기능
- unique()로, 원하는 column 데이터를 중복 없이 array로 추출하는 기능
>> ['북산고' '능남고']
3. Column 추출
print(df['이름'])
print(df[['이름','키']])
print(df.columns[0]) #이름
print(df[df.columns[0]]) # df 이름과 같을 때 응용
# Slicing
# 몇 명의 영어점수
print(df['영어'][0:5])
print(df[['이름','키']][0:3])
print(df[3:])
-
'파이썬 > 파이썬 데이터 분석, 데이터처리' 카테고리의 다른 글
Pandas) 데이터 분석 7편, 데이터 필터링, and 및 or 등 다양한 조건, nan 처리 (1) | 2023.01.15 |
---|---|
Pandas) 데이터 분석 6편, loc, iloc의 이해 (0) | 2023.01.15 |
Pandas) 데이터 분석 3편, 파이썬으로 만든 데이터를 csv, excel 파일로 저장 및 읽기 (0) | 2023.01.15 |
Pandas) 데이터 분석 2편, 2차원 데이터 DataFrame 만들기 with Dictionary, (표 데이터 파이썬으로 만들기), 인덱스 지정하기 (0) | 2023.01.15 |
Pandas) 데이터 분석 1편, 1차원 데이터 Series 만들기 (행 데이터 파이썬으로 만들기) (0) | 2023.01.15 |
댓글