본문 바로가기

전체 글126

Pandas) 데이터 분석 8편, 데이터 정렬 및 row, column 데이터 수정 1. 데이터 가져와서 특정 컬럼 값 기준으로 오름차순, 내림차순 하기. import pandas as pd df = pd.read_excel('score.xlsx',index_col = '순번') #엑셀 내에 순번이 있어야 함. # 오름차순 정렬 df.sort_values('키',inplace=True) print(df) # 내림차순 정렬 df.sort_values('키',inplace=True,ascending = False) print(df) 앞의 예제들과 달리 2번째 줄에 index_col을 설정하였습니다. 2. 특정 컬럼 값 두개로 정렬하기 # 수학 기준으로 정렬하지만, 같은 점수일 때는 영어로 정렬 df.sort_values(['수학','영어'],ascending= False, inplace=T.. 2023. 1. 16.
Pandas) 데이터 분석 7편, 데이터 필터링, and 및 or 등 다양한 조건, nan 처리 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 조건에 해당하는 데이터를 가져오는 실습을 진행합니다. 1. 간단하게 시리즈 방식으로 조건에 맞는 데이터 가져오기 print(df['키']>= 185) 2. DataFrame을 이용하여 필터링하기 # 필터 filt = df['키']>= 185 #df[df['키']]>= 185 print(df[filt]) #print(df[~filt]) # 필터 역으로! 3. 조건 이용하여 원하는 칼럼 데이터 필터링하기 print(df.loc[df['키']>= 185, ['이름','수학']]) # row data, colum data 순 # 다양한 조건 # and 조건 print(df.loc[(df['키'] >= 185) & (df['학교'] == '북산고')]) .. 2023. 1. 15.
Pandas) 데이터 분석 6편, loc, iloc의 이해 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 1. loc의 기능 import pandas as pd df = pd.read_excel('score.xlsx') df.set_index('순번', inplace = True) #loc #이름을 이용해서 원하는 row에서 원하는 column 설정 print(df.loc[0]) # index가 0인 row 데이터를 가져옵니다. print(df.loc[5]) loc는 해당 row의 값을 가져오는 기능을 합니다. 2. loc을 이용해서 특정 row에서 특정 column 지정하기 print(df.loc[0,'국어']) print(df.loc[[1,5]],'영어') print(df.loc[[1,5],['영어','수학']]) print(df.loc[1:5,.. 2023. 1. 15.
Pandas) 데이터 분석 4편, 데이터 분석, 데이터 파싱, Column 추출 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 1. 데이터 분석 describe() 함수를 이용하여 데이터를 자동으로 분석합니다. # 데이터 확인 #print(df.describe()) df = df.describe() df.index.name = '분석' print(df) df.to_excel('분석.xlsx') 계산을 할 수 있는 데이터에 대해 자동으로 계산해주는 기능입니다. (데이터 갯수, 평균, 표준편차, 최소/최대값 등의 정보를 불러옵니다.) 이런 식으로 원하는 row도 가져올 수 있죠. import pandas as pd df = pd.read_excel('score.xlsx') df.set_index('순번', inplace = True) print(df.head(7)) # 처음.. 2023. 1. 15.
Pandas) 데이터 분석 3편, 파이썬으로 만든 데이터를 csv, excel 파일로 저장 및 읽기 나도코딩 유튜브 + 외주 자료를 참고하여 만든 자료입니다. 1. 만든 dataframe을 csv 파일로 저장하는 과정입니다. index를 빼는 방법도 적혀 있습니다. df.to_csv('score.csv', encoding = 'utf-8-sig') 를 코드창에 입력하시면 됩니다. import pandas as pd import openpyxl data = { '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'], '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'], '키' : [197, 184, 168, 187, 188, 202, 188, 190], '국어' : [90, 40, 8.. 2023. 1. 15.
반응형