파이썬/파이썬 데이터 분석, 데이터처리8 Pandas) 데이터 분석 9편, 함수 적용 및 그룹화 1. 함수 적용 apply를 통해 데이터를 가공할 수 있습니다. import pandas as pd df = pd.read_excel('score.xlsx',index_col = '순번') # 함수 적용, apply # 키 뒤에 cm 붙이기 def add_cm(height): return str(height) + 'cm' df['키'] = df['키'].apply(add_cm) # add 함수를 호출한 결과 데이터 반영 print(df) 영어로 되어있는 란에 첫 글자는 대문자, 나머지는 소문자로 변환시키는 함수를 적용하겠습니다. # def capitalize(lang): # if pd.notnull(lang): # return lang.capitalize() # 처음 대문자, 나머지 소문자 # retur.. 2023. 1. 16. Pandas) 데이터 분석 8편, 데이터 정렬 및 row, column 데이터 수정 1. 데이터 가져와서 특정 컬럼 값 기준으로 오름차순, 내림차순 하기. import pandas as pd df = pd.read_excel('score.xlsx',index_col = '순번') #엑셀 내에 순번이 있어야 함. # 오름차순 정렬 df.sort_values('키',inplace=True) print(df) # 내림차순 정렬 df.sort_values('키',inplace=True,ascending = False) print(df) 앞의 예제들과 달리 2번째 줄에 index_col을 설정하였습니다. 2. 특정 컬럼 값 두개로 정렬하기 # 수학 기준으로 정렬하지만, 같은 점수일 때는 영어로 정렬 df.sort_values(['수학','영어'],ascending= False, inplace=T.. 2023. 1. 16. Pandas) 데이터 분석 7편, 데이터 필터링, and 및 or 등 다양한 조건, nan 처리 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 조건에 해당하는 데이터를 가져오는 실습을 진행합니다. 1. 간단하게 시리즈 방식으로 조건에 맞는 데이터 가져오기 print(df['키']>= 185) 2. DataFrame을 이용하여 필터링하기 # 필터 filt = df['키']>= 185 #df[df['키']]>= 185 print(df[filt]) #print(df[~filt]) # 필터 역으로! 3. 조건 이용하여 원하는 칼럼 데이터 필터링하기 print(df.loc[df['키']>= 185, ['이름','수학']]) # row data, colum data 순 # 다양한 조건 # and 조건 print(df.loc[(df['키'] >= 185) & (df['학교'] == '북산고')]) .. 2023. 1. 15. Pandas) 데이터 분석 6편, loc, iloc의 이해 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 1. loc의 기능 import pandas as pd df = pd.read_excel('score.xlsx') df.set_index('순번', inplace = True) #loc #이름을 이용해서 원하는 row에서 원하는 column 설정 print(df.loc[0]) # index가 0인 row 데이터를 가져옵니다. print(df.loc[5]) loc는 해당 row의 값을 가져오는 기능을 합니다. 2. loc을 이용해서 특정 row에서 특정 column 지정하기 print(df.loc[0,'국어']) print(df.loc[[1,5]],'영어') print(df.loc[[1,5],['영어','수학']]) print(df.loc[1:5,.. 2023. 1. 15. Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 1. 데이터 분석 describe() 함수를 이용하여 데이터를 자동으로 분석합니다. # 데이터 확인 #print(df.describe()) df = df.describe() df.index.name = '분석' print(df) df.to_excel('분석.xlsx') 계산을 할 수 있는 데이터에 대해 자동으로 계산해주는 기능입니다. (데이터 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 불러옵니다.) 이런 식으로 원하는 row도 가져올 수 있죠. import pandas as pd df = pd.read_excel('score.xlsx') df.set_index('순번', inplace = True) print(df.head(7)) # 처음.. 2023. 1. 15. 이전 1 2 다음 반응형