본문 바로가기

pandas4

파이썬 python replace 함수 치환 방대한 양의 데이터프레임을 처리하다보면 이 데이터 요소를 저 데이터로 바꾸고 싶은데 노가다를 하기엔 끝이 안 보일 때가 있다 그럴 때 쓰는 게 pandas 라이브러리의 replace 함수. replace 함수의 기능을 살펴보면 "Replace values given in `to_replace` with `value`."라고 나와있다. 바꿀 값과 그 값을 대체할 값을 차례로 써주면 된다. 사실 값을 바꾸는 건 '.loc'나 '.iloc' 매소드에 조건문을 넣어주며 바꿀 수도 있는데 얘네는 바꿀 값의 location을 필요로 해서 replace와 좀 다르게 작동한다. 이렇게 .loc을 쓰면 boolean과 label을 쓰며 위치를 인식해줘야 했던 것을 replace를 쓰면 치환대상이 많더라도 간단하게 치환할.. 2021. 9. 29.
파이썬 python groupby 함수 이용해서 여성 비율이 높은 직업 알아보기 import pandas as pd df=pd.read_csv('occupations.csv') 위 csv 파일을 이용해서 여성 비율이 높은 직업을 알아보자. 비율은 평균을 구하면 알 수 있다. 'occupation' column을 활용해서 groupby 한다면 각 컬럼의 평균값을 'occupation'별로 나타낼 수 있다. groupby 함수 occupation_groups=df.groupby('occupation') type(occupation_groups) -> pandas.core.groupby.generic.DataFrameGroupBy 'occupation_groups'라는 변수에 직업 열을 기준으로 groupby한 결과값을 저장하고 변수의 타입을 알아보면 위와 같이 이 변수가 타입이라는 걸 .. 2021. 6. 25.
파이썬 python drop 함수 활용해서 행 삭제하기 drop 함수 이 데이터프레임에서 race_ethnicity 행의 'All' 값이 속한 행만 삭제하고 싶으면 어떻게 해야 할까? drop 함수를 쓰지 않으면 condition=df['race_ethnicity']!='All'이라는 조건을 적용하는 방법도 있지만,, 그래도 함수를 이용해서 풀어보자. 특정한 label이나 해당 축을 삭제하고 싶을 때 쓰는게 drop 함수이며, 기본적인 형태는 df.drop('row or column 이름', axis='index or 0' or 'columns or 1') 이다. index 값을 지우고 싶을 땐 axis=0, column을 지우고 싶을 땐 axis=1을 붙어주면 되는데, axis를 생략하고 싶으면 df.drop(index='row이름') / df.drop(c.. 2021. 6. 7.
DataFrame과 for문 이용하여 큰 데이터 다루기 왼쪽의 데이터 프레임과 오른쪽 데이터 프레임의 차이는 무엇인가? "room assignment"라는 column이 새로 생성되었고 value들도 어떠한 조건에 따라서 다르게 삽입되어있다. 조건) 80명 이상의 학생이 수강하는 과목은 “Auditorium”에서 진행됩니다. 40명 이상, 80명 미만의 학생이 수강하는 과목은 “Large room”에서 진행됩니다. 15명 이상, 40명 미만의 학생이 수강하는 과목은 “Medium room”에서 진행됩니다. 5명 이상, 15명 미만의 학생이 수강하는 과목은 “Small room”에서 진행됩니다. 폐강 등의 이유로 status가 “not allowed”인 수강생은 room assignment 또한 “not assigned”가 되어야 합니다. 오답) "course.. 2021. 5. 27.