읽어보기 ⬇️
1. 데이터 불러오기
- 필요한 패키지를 설치하거나 import한 후 pandas를 사용해 데이터를 읽고, 어떤 데이터가 들어있는지 확인하는 작업이다.
- 오늘 사용한 라이브러리와 모듈 ⬇️
import numpy as np # 파이썬에서 데이터를 처리하기 위한 다양한 기능 제공
import pandas as pd # 이하동문
import matplotlib.pyplot as plt # matplotlib - 그래프, 데이터 시각화를 지원, pyplot 모듈 불러와 사용
import seaborn as sns # 데이터 시각화를 지원하는 모듈
2. 데이터 정제
- 결측값(missing data), 이상치(outlier) 등을 처리한다.
- 데이터를 삭제하고 싶을 때는 원본 데이터를 이용하는 것이 아니라 새로운 데이터를 만들어서 편집해줘야 한다! (주의)
- 원본이 다시 필요할 수도 있기 때문
- drop()으로 삭제, info()로 확인
3. 데이터 시각화
- 각 column의 변수별로 데이터 분포를 확인하는 과정이다.
- 데이터 전처리 → 출력
- 전처리 예시
- 코로나 확진일 데이터를 '월', '일'로 나누는 과정
-
# 1. dataframe에 추가하기 전, 임시로 데이터를 저장해 둘 list를 선언함 month = [] day = [] for data in corona_del_col['확진일']: # split 함수를 사용하여 월, 일을 나누어 list에 저장 month.append(data.split('.')[0]) day.append(data.split('.')[1]) # 2. 컬럼명, 데이터타입을 지정해줌 # corona_del_col에 `month`, `day` column을 생성, list에 임시 저장된 데이터를 입력 corona_del_col['month'] = month corona_del_col['day'] = day corona_del_col['month'].astype('int64') corona_del_col['day'].astype('int64')
- 출력 할 때는 x축의 순서를 정리할 ordered list가 필요하다.
- seaborn의 countplot 함수를 사용해 출력한다.
- 예시
-
plt.figure(figsize=(10,5)) sns.set(style="darkgrid") ax = sns.countplot(x="month", data=corona_out_region[corona_out_region['지역'] == '관악구'], palette="Set2", order = order)
-
- 예시
완성
'공부 > data science' 카테고리의 다른 글
google colab 세션 연결 끊김 방지 (0) | 2021.11.27 |
---|---|
[Python] Matplotlib with Pandas (0) | 2021.09.08 |
Pandas (0) | 2021.09.05 |
댓글