본문 바로가기
공부/data science

EDA (탐색적 데이터 분석) 과정 연습

by 마자용 2021. 9. 13.

읽어보기 ⬇️

 

EDA (Exploratory Data Analysis) 탐색적 데이터 분석

1.EDA란? 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보

eda-ai-lab.tistory.com

 


 

1. 데이터 불러오기

  • 필요한 패키지를 설치하거나 import한 후 pandas를 사용해 데이터를 읽고, 어떤 데이터가 들어있는지 확인하는 작업이다.
  • 오늘 사용한 라이브러리와 모듈 ⬇️
import numpy as np # 파이썬에서 데이터를 처리하기 위한 다양한 기능 제공
import pandas as pd # 이하동문
import matplotlib.pyplot as plt # matplotlib - 그래프, 데이터 시각화를 지원, pyplot 모듈 불러와 사용
import seaborn as sns # 데이터 시각화를 지원하는 모듈

 

 

2. 데이터 정제

 

  • 결측값(missing data), 이상치(outlier) 등을 처리한다.
  • 데이터를 삭제하고 싶을 때는 원본 데이터를 이용하는 것이 아니라 새로운 데이터를 만들어서 편집해줘야 한다! (주의)
    • 원본이 다시 필요할 수도 있기 때문
  • drop()으로 삭제, info()로 확인

 

 

3. 데이터 시각화

 

  • 각 column의 변수별로 데이터 분포를 확인하는 과정이다.
  • 데이터 전처리 → 출력
  • 전처리 예시
    • 코로나 확진일 데이터를 '월', '일'로 나누는 과정
    • # 1. dataframe에 추가하기 전, 임시로 데이터를 저장해 둘 list를 선언함
      
      month = []
      day = []
      
      for data in corona_del_col['확진일']:
          # split 함수를 사용하여 월, 일을 나누어 list에 저장
          month.append(data.split('.')[0])
          day.append(data.split('.')[1])
      
      
      # 2. 컬럼명, 데이터타입을 지정해줌
      # corona_del_col에 `month`, `day` column을 생성, list에 임시 저장된 데이터를 입력
      
      corona_del_col['month'] = month
      corona_del_col['day'] = day
      
      corona_del_col['month'].astype('int64')
      corona_del_col['day'].astype('int64')
  • 출력 할 때는 x축의 순서를 정리할 ordered list가 필요하다.
  • seaborn의 countplot 함수를 사용해 출력한다.
    • 예시
      • plt.figure(figsize=(10,5))
        sns.set(style="darkgrid")
        ax = sns.countplot(x="month", data=corona_out_region[corona_out_region['지역'] == '관악구'], palette="Set2", order = order)

 

 


완성

 

'공부 > data science' 카테고리의 다른 글

google colab 세션 연결 끊김 방지  (0) 2021.11.27
[Python] Matplotlib with Pandas  (0) 2021.09.08
Pandas  (0) 2021.09.05

댓글