Pandas

구조화된 데이터를 효과적으로 처리하고 저장할 수 있도록 도와주는 파이썬 라이브러리
Array 계산에 특화된 Numpy를 기반으로 설계되었음
- Array → 행과 열을 가진 2차원 데이터
- Numpy → 대용량 데이터를 쉽게 처리
데이터가 Series 형태임
- 특수한 dictionary 형태 (= 엑셀과 비슷)
  - Numpy의 Array가 보강된 형태임
- Data + Index
- 특징
  1. 값(values)을 배열 형태(ndarray)로 가지고 있음
  2. 안에 들어가는 value의 data type을 바꿀 수 있음
    - dtype 인자를 이용
  3. 인덱스를 지정할 수 있음
    - 인덱스에 접근, 요소 변경이 가능
  4. Dictionary를 활용해 Series를 생성할 수 있음
DataFrame
- 여러 개의 Series가 모여서 행과 열을 이룬 데이터
  - Data + Frame
- Dictionary를 활용해 생성할 수도 있음
- 저장 및 불러오기가 가능함
  - 저장
    - to_csv
      - comma separated value
    - to_excel
  - 불러오기
    - pd.read_csv
    - pd.read_excel
정리
- Dictionary
  - data = { key:value}
- Series
  - Series( [1, 2, 3, 4] )
- DataFrame
  - 인덱스 + Series 데이터
데이터 선택 - Indexing, Slicing
- .loc
  - 명시적인 인댁스를 참조하는 익덱싱 및 슬라이싱
  - location
- .iloc
  - 암묵적인 순서 → 값
  - 파이썬 스타일의 정수를 참조하는 인덱싱 및 슬라이싱
- 컬럼명을 활용해 DataFrame에서 데이터 선택 가능
  - [ ]
    - 컬럼 (Series)
  - [ [] ]
    - DataFrame
- 조건 활용
  - 조건에 맞는 DataFrame 행을 추출할 수 있음
    - Masking 연산
    - query 함수

'공부 > data science' 카테고리의 다른 글

google colab 세션 연결 끊김 방지 (0)	2021.11.27
EDA (탐색적 데이터 분석) 과정 연습 (0)	2021.09.13
[Python] Matplotlib with Pandas (0)	2021.09.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

희로그

Pandas

'공부 > data science' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Pandas

'공부 > data science' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역