본문 바로가기

Programming/python20

판다스 axis 매개변수 개념 완벽정리 판다스를 공부하면서 매우 헷갈렸던게 행과 열이었다. 데이터프레임은 2차원 형태의 데이터를 다루기 위한 자료형으로, 행과 열이라는 축을 기준으로 정렬되어 있다. 행(row / index)은 각각의 레코드를 담았고 열(column)은 일반적으로 데이터의 특징을 담는다. 쉽게 말해서 행은 가로, 열은 세로. 행가열세 행가열세 !! 행과 열은 축으로 나타낼 때 행은 x축, 열은 y축으로 나타낸다. 우리가 1차, 2차 방정식 배울 때 봤던 그래프를 떠올리면 된다. 판다스 DataFrame을 다루다보면 행이나 열을 삭제하거나 mean, median, rank 등의 값을 구해야 할 때가 있는데, axis 라는 매개변수를 사용하지 않으면 데이터프레임의 모든 값들이 포함된 결과값을 얻게 된다. 한마디로 말하면 axis는.. 2021. 7. 1.
파이썬 python groupby 함수 이용해서 여성 비율이 높은 직업 알아보기 import pandas as pd df=pd.read_csv('occupations.csv') 위 csv 파일을 이용해서 여성 비율이 높은 직업을 알아보자. 비율은 평균을 구하면 알 수 있다. 'occupation' column을 활용해서 groupby 한다면 각 컬럼의 평균값을 'occupation'별로 나타낼 수 있다. groupby 함수 occupation_groups=df.groupby('occupation') type(occupation_groups) -> pandas.core.groupby.generic.DataFrameGroupBy 'occupation_groups'라는 변수에 직업 열을 기준으로 groupby한 결과값을 저장하고 변수의 타입을 알아보면 위와 같이 이 변수가 타입이라는 걸 .. 2021. 6. 25.
파이썬 python drop 함수 활용해서 행 삭제하기 drop 함수 이 데이터프레임에서 race_ethnicity 행의 'All' 값이 속한 행만 삭제하고 싶으면 어떻게 해야 할까? drop 함수를 쓰지 않으면 condition=df['race_ethnicity']!='All'이라는 조건을 적용하는 방법도 있지만,, 그래도 함수를 이용해서 풀어보자. 특정한 label이나 해당 축을 삭제하고 싶을 때 쓰는게 drop 함수이며, 기본적인 형태는 df.drop('row or column 이름', axis='index or 0' or 'columns or 1') 이다. index 값을 지우고 싶을 땐 axis=0, column을 지우고 싶을 땐 axis=1을 붙어주면 되는데, axis를 생략하고 싶으면 df.drop(index='row이름') / df.drop(c.. 2021. 6. 7.
DataFrame과 for문 이용하여 큰 데이터 다루기 왼쪽의 데이터 프레임과 오른쪽 데이터 프레임의 차이는 무엇인가? "room assignment"라는 column이 새로 생성되었고 value들도 어떠한 조건에 따라서 다르게 삽입되어있다. 조건) 80명 이상의 학생이 수강하는 과목은 “Auditorium”에서 진행됩니다. 40명 이상, 80명 미만의 학생이 수강하는 과목은 “Large room”에서 진행됩니다. 15명 이상, 40명 미만의 학생이 수강하는 과목은 “Medium room”에서 진행됩니다. 5명 이상, 15명 미만의 학생이 수강하는 과목은 “Small room”에서 진행됩니다. 폐강 등의 이유로 status가 “not allowed”인 수강생은 room assignment 또한 “not assigned”가 되어야 합니다. 오답) "course.. 2021. 5. 27.