Pandas
- 구조화된 데이터를 효과적으로 처리하고 저장할 수 있도록 도와주는 파이썬 라이브러리
- Array 계산에 특화된 Numpy를 기반으로 설계되었음
- Array → 행과 열을 가진 2차원 데이터
- Numpy → 대용량 데이터를 쉽게 처리
- 데이터가 Series 형태임
- 특수한 dictionary 형태 (= 엑셀과 비슷)
- Numpy의 Array가 보강된 형태임
- Data + Index
- 특징
- 값(values)을 배열 형태(ndarray)로 가지고 있음
- 안에 들어가는 value의 data type을 바꿀 수 있음
- dtype 인자를 이용
- 인덱스를 지정할 수 있음
- 인덱스에 접근, 요소 변경이 가능
- Dictionary를 활용해 Series를 생성할 수 있음
- 특수한 dictionary 형태 (= 엑셀과 비슷)
- DataFrame
- 여러 개의 Series가 모여서 행과 열을 이룬 데이터
- Data + Frame
- Dictionary를 활용해 생성할 수도 있음
- 저장 및 불러오기가 가능함
- 저장
- to_csv
- comma separated value
- to_excel
- to_csv
- 불러오기
- pd.read_csv
- pd.read_excel
- 저장
- 여러 개의 Series가 모여서 행과 열을 이룬 데이터
- 정리
- Dictionary
- data = { key:value}
- Series
- Series( [1, 2, 3, 4] )
- DataFrame
- 인덱스 + Series 데이터
- Dictionary
- 데이터 선택 - Indexing, Slicing
- .loc
- 명시적인 인댁스를 참조하는 익덱싱 및 슬라이싱
- location
- .iloc
- 암묵적인 순서 → 값
- 파이썬 스타일의 정수를 참조하는 인덱싱 및 슬라이싱
- 컬럼명을 활용해 DataFrame에서 데이터 선택 가능
- [ ]
- 컬럼 (Series)
- [ [] ]
- DataFrame
- [ ]
- 조건 활용
- 조건에 맞는 DataFrame 행을 추출할 수 있음
- Masking 연산
- query 함수
- 조건에 맞는 DataFrame 행을 추출할 수 있음
- .loc
'공부 > data science' 카테고리의 다른 글
google colab 세션 연결 끊김 방지 (0) | 2021.11.27 |
---|---|
EDA (탐색적 데이터 분석) 과정 연습 (0) | 2021.09.13 |
[Python] Matplotlib with Pandas (0) | 2021.09.08 |
댓글