Idealim
article thumbnail

/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */

/* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */


Pandas란?

Pandas 란?

pandas데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과 함께 사용하는 경우가 많다. 

pandas 또한 Numpy 처럼 for 문을 사용하지 않고 데이터를 처리하는 방식을 차용했다. 

특히 표 형식 테이블과 다양한 형태의 데이터를 다루는데 초점을 맞춰 설계했다. 이와 관련된 데이터 구조와 연산들을 제공한다. (Numpy는 단일 산술 배열 데이터를 다루는 데 특화되어 있다.)

Pandas 기능

  • 통합 인덱싱으로 데이터 조작을 위한 DataFrame 개체
  • 메모리 내 데이터 구조 와 다른 파일 형식 간에 데이터를 읽고 쓰는 도구
  • 데이터 정렬 및 누락된 데이터의 통합 처리
  • 데이터 세트의 재구성 및 피벗
  • 레이블 기반 슬라이싱, 멋진 인덱싱 및 대규모 데이터 세트의 하위 집합
  • 데이터 구조 열 삽입 및 삭제
  • 데이터 세트에 대한 분할-적용-결합 작업을 허용하는 엔진별로 그룹화
  • 데이터 세트 병합 및 결합
  • 저차원 데이터 구조에서 고차원 데이터로 작업하기 위한 계층적 축 인덱싱
  • 시계열 기능: 날짜 범위 생성  및 빈도 변환, 이동 창 통계 , 이동 창 선형 회귀 , 날짜 이동 및 지연
  • 데이터 필터링을 제공

pandas 는 앞으로 가장 자주 쓰게될 라이브러리이다. 이번 기회를 통해 확실하게 기초를 쌓아보자. 


참고 자료

[위키백과 - Pandas]  : https://ko.wikipedia.org/wiki/Pandas

반응형
profile

Idealim

@Idealim

읽어주셔서 감사합니다. 잘못된 내용이 있으면 언제든 댓글로 피드백 부탁드립니다.