본문 바로가기

Programming/python20

파이썬 정규표현식(Regular Expression)과 예제 살펴보기 1. 정규표현식 정규표현식은 특정한 규칙, 패턴을 가진 문자열을 표현한다. 그래서 특정 패턴을 지닌 문자열을 찾는 데 많이 쓰인다. 파이썬은 정규표현식을 지원하기 위해 're' 모듈을 기본 라이브러리로 제공한다. re 모듈 안의 함수인 compile과 match, search, findall 등을 이용해 정규표현식을 컴파일한 결과를 객체로 돌려주고, 우리가 정규표현식으로 찾고자 하는 문자열이 해당 문자열 속에 있는지 찾는 과정을 거친다. 정규표현식은 간단히 정규식이나 Regex로 불리우기도 한다. 예를 들어, 'Hello World 안녕 python 튜토리얼'에서 python만 찾고 싶다고 했을 때, 파이썬 코드로 찾는다고 하면 반복문, python의 위치 등 고려해야 할 게 많다. 하지만 정규표현식을 .. 2022. 2. 17.
웹에서 YAML 파일 가져오고 dataframe 으로 나타내기 모든 데이터가 csv 형식같은 rectanglar data로 되어 있으면 데이터프레임화하기 편하지만, 데이터가 HTML, XML, JSON, YAML 등 여러 포맷의 hierachical data로 되어 있는 게 현실이다. 그래서 이런 데이터들을 파싱해서 파이썬으로 불러오고 어떻게 분석해야 하는지 정리해보겠다 ! 위 데이터셋은 미국 국회의원들의 이름, 생년월일, 소속당, 전화번호 등 자세한 정보가 들어있는 yaml 파일이다. https://github.com/unitedstates/congress-legislators/blob/main/legislators-current.yaml 깃헙에서 가져온건데, 파싱한 코드는 아래와 같다. import requests from pathlib import Path l.. 2021. 11. 4.
파이썬 pandas.melt() 데이터 재구조화(reshape) ( melt vs pivot ) 데이터 재구조화, 전처리 과정에서 pivot과 함께 melt 함수도 많이 사용된다. 하지만 pivot()과는 반대로 작동함. 간단하게 말해서 melt()는 dataframe format을 wide에서 long으로 바꿔주는 함수이다. 그래서 wide_to_long() 메서드와 함께 쓰이기도 한다. 인덱스와 열을 녹여 하나 혹은 다수의 컬럼이 identifier가 되어 dataframe을 specific format으로 재구조화한다. 원래 df의 형식이 녹여지고 식별변수(id_variable)을 기준으로 정렬된다고 생각하면 된다. 반면에 pivot()은 여러 형태로 이루어진 dataframe에 index, columns, values를 각각 지정해주어 melt된 df를 보기 좋은 형태로 재구조화 시켜주는 메.. 2021. 10. 13.
파이썬 python replace 함수 치환 방대한 양의 데이터프레임을 처리하다보면 이 데이터 요소를 저 데이터로 바꾸고 싶은데 노가다를 하기엔 끝이 안 보일 때가 있다 그럴 때 쓰는 게 pandas 라이브러리의 replace 함수. replace 함수의 기능을 살펴보면 "Replace values given in `to_replace` with `value`."라고 나와있다. 바꿀 값과 그 값을 대체할 값을 차례로 써주면 된다. 사실 값을 바꾸는 건 '.loc'나 '.iloc' 매소드에 조건문을 넣어주며 바꿀 수도 있는데 얘네는 바꿀 값의 location을 필요로 해서 replace와 좀 다르게 작동한다. 이렇게 .loc을 쓰면 boolean과 label을 쓰며 위치를 인식해줘야 했던 것을 replace를 쓰면 치환대상이 많더라도 간단하게 치환할.. 2021. 9. 29.