본문 바로가기
공부/data science

Pandas

by 마자용 2021. 9. 5.

Pandas

  • 구조화된 데이터를 효과적으로 처리하고 저장할 수 있도록 도와주는 파이썬 라이브러리
  • Array 계산에 특화된 Numpy를 기반으로 설계되었음
    • Array → 행과 열을 가진 2차원 데이터
    • Numpy → 대용량 데이터를 쉽게 처리
  • 데이터가 Series 형태임
    • 특수한 dictionary 형태 (= 엑셀과 비슷)
      • Numpy의 Array가 보강된 형태임
    • Data + Index
    • 특징
      1. 값(values)을 배열 형태(ndarray)로 가지고 있음
      2. 안에 들어가는 value의 data type을 바꿀 수 있음
        • dtype 인자를 이용
      3. 인덱스를 지정할 수 있음
        • 인덱스에 접근, 요소 변경이 가능
      4. Dictionary를 활용해 Series를 생성할 수 있음
        •  
  • DataFrame
    • 여러 개의 Series가 모여서 행과 열을 이룬 데이터
      • Data + Frame
    • Dictionary를 활용해 생성할 수도 있음
    • 저장 및 불러오기가 가능함
      • 저장 
        • to_csv
          • comma separated value
        • to_excel
      • 불러오기
        • pd.read_csv
        • pd.read_excel
  • 정리
    • Dictionary
      • data = { key:value}
    • Series
      • Series( [1, 2, 3, 4] )
    • DataFrame
      • 인덱스 + Series 데이터
  • 데이터 선택 - Indexing, Slicing
    • .loc
      • 명시적인 인댁스를 참조하는 익덱싱 및 슬라이싱
      • location
    • .iloc
      • 암묵적인 순서 → 값
      • 파이썬 스타일의 정수를 참조하는 인덱싱 및 슬라이싱
    • 컬럼명을 활용해 DataFrame에서 데이터 선택 가능
      • [ ]
        • 컬럼 (Series)
      • [ [] ]
        • DataFrame
    • 조건 활용
      • 조건에 맞는 DataFrame 행을 추출할 수 있음 
        • Masking 연산
        • query 함수

'공부 > data science' 카테고리의 다른 글

google colab 세션 연결 끊김 방지  (0) 2021.11.27
EDA (탐색적 데이터 분석) 과정 연습  (0) 2021.09.13
[Python] Matplotlib with Pandas  (0) 2021.09.08

댓글