/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */
/* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */
Pandas란?
Pandas 란?
pandas는 데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과 함께 사용하는 경우가 많다.
pandas 또한 Numpy 처럼 for 문을 사용하지 않고 데이터를 처리하는 방식을 차용했다.
특히 표 형식 테이블과 다양한 형태의 데이터를 다루는데 초점을 맞춰 설계했다. 이와 관련된 데이터 구조와 연산들을 제공한다. (Numpy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다.)
Pandas 기능
- 통합 인덱싱으로 데이터 조작을 위한 DataFrame 개체
- 메모리 내 데이터 구조 와 다른 파일 형식 간에 데이터를 읽고 쓰는 도구
- 데이터 정렬 및 누락된 데이터의 통합 처리
- 데이터 세트의 재구성 및 피벗
- 레이블 기반 슬라이싱, 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
- 데이터 구조 열 삽입 및 삭제
- 데이터 세트에 대한 분할-적용-결합 작업을 허용하는 엔진별로 그룹화
- 데이터 세트 병합 및 결합
- 저차원 데이터 구조에서 고차원 데이터로 작업하기 위한 계층적 축 인덱싱
- 시계열 기능: 날짜 범위 생성 및 빈도 변환, 이동 창 통계 , 이동 창 선형 회귀 , 날짜 이동 및 지연
- 데이터 필터링을 제공
pandas 는 앞으로 가장 자주 쓰게될 라이브러리이다. 이번 기회를 통해 확실하게 기초를 쌓아보자.
참고 자료
[위키백과 - Pandas] : https://ko.wikipedia.org/wiki/Pandas