Data/Numpy & Pandas
-
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 색인 객체 색인(Index) 객체란? pandas 의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체이다. Series 나 DataFrame 객체를 생성할 때 사용되는 배열(리스트, ndarray, 튜플 등)나 다른 순차적인 이름은 내부적으로 색인으로 변환된다. 예시를 통해 확인해보자. 색인 객체 예시 obj = pd.Series(range(3), index=['a', 'b', 'b']) index = obj.i..
[Data Science / Chapter 2.4] Pandas 자료구조 - 색인 객체/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 색인 객체 색인(Index) 객체란? pandas 의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체이다. Series 나 DataFrame 객체를 생성할 때 사용되는 배열(리스트, ndarray, 튜플 등)나 다른 순차적인 이름은 내부적으로 색인으로 변환된다. 예시를 통해 확인해보자. 색인 객체 예시 obj = pd.Series(range(3), index=['a', 'b', 'b']) index = obj.i..
2022.03.04 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ DataFrame 1. DataFrame 이란? DataFrame 은 표 같은 스프레드시트 형식의 자료구조이다. (엑셀을 생각하면 된다.) 여러 개의 칼럼이 있는데 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장한다. 2. DataFrame 다루기 DataFrame 객체 생성하기 D..
[Data Science / Chapter 2.3] Pandas 자료구조 - DataFrame/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ DataFrame 1. DataFrame 이란? DataFrame 은 표 같은 스프레드시트 형식의 자료구조이다. (엑셀을 생각하면 된다.) 여러 개의 칼럼이 있는데 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장한다. 2. DataFrame 다루기 DataFrame 객체 생성하기 D..
2022.03.03 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas 자료구조 - Series pandas의 대표적인 자료구조인 Series, DataFrame 에 대해 알아보자. 이 두 가지 자료구조를 배우면 대부분의 애플리케이션에서 사용하기 쉬우며 탄탄한 기반이 되어줄 것이다. Series Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다. 그리고 색인(index) 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다. ( 파이썬의 Dictionary형과 비슷하다) Series 객체 생성하기 # inde..
[Data Science / Chapter 2.2] Pandas 자료구조 - Series/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas 자료구조 - Series pandas의 대표적인 자료구조인 Series, DataFrame 에 대해 알아보자. 이 두 가지 자료구조를 배우면 대부분의 애플리케이션에서 사용하기 쉬우며 탄탄한 기반이 되어줄 것이다. Series Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다. 그리고 색인(index) 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다. ( 파이썬의 Dictionary형과 비슷하다) Series 객체 생성하기 # inde..
2022.02.23 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas란? Pandas 란? pandas는 데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과..
[Data Science / Chapter 2.1] Pandas란?/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas란? Pandas 란? pandas는 데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과..
2022.02.23 -
/* 본 게시물은 ' ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 제목 참고 자료 [URL] :
[Data Science / Chapter 1.7] Numpy 기본 사용법(6) - 선형대수/* 본 게시물은 ' ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 제목 참고 자료 [URL] :
2022.02.23 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 난수 생성 Numpy.random 모듈 numpy.random 모듈은 파이썬 내장 random 함수를 보강하여 다양한 종류의 확률분포로부터 효과적으로 표본값을 생성하는데 주로 사용된다. 표본정규분포 표본 생성 randomData = np.random.normal(size=(4,4)) print(randomData) """ [[ 5.96710372e-01 -5.86135000e-01 1.19199216e-01 -1.90140372e+00] [ 9.86277664e-01 3.92..
[Data Science / Chapter 1.6] Numpy 기본 사용법(5) - 난수 생성 (Random)/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 난수 생성 Numpy.random 모듈 numpy.random 모듈은 파이썬 내장 random 함수를 보강하여 다양한 종류의 확률분포로부터 효과적으로 표본값을 생성하는데 주로 사용된다. 표본정규분포 표본 생성 randomData = np.random.normal(size=(4,4)) print(randomData) """ [[ 5.96710372e-01 -5.86135000e-01 1.19199216e-01 -1.90140372e+00] [ 9.86277664e-01 3.92..
2022.02.21 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열 데이터의 파일 입출력 Numpy 는 디스크에서 텍스트나 바이너리 형식의 데이터를 불러오거나 저장할 수 있다. 파일 입출력 np.save / np.load arr = np.arange(10) np.save('some_array', arr) # some_array.npz 로 저장 np.load('some_array.npz') np.save와 np.load 함수를 통해 배열 데이터를 디스크에 저장하고 불러올 수 있다. 배열은 기본적으로 압축되지 않은 원시 바이너리 형식의 .n..
[Data Science / Chapter 1.5] Numpy 기본 사용법(4) - 배열 데이터의 파일 입출력/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열 데이터의 파일 입출력 Numpy 는 디스크에서 텍스트나 바이너리 형식의 데이터를 불러오거나 저장할 수 있다. 파일 입출력 np.save / np.load arr = np.arange(10) np.save('some_array', arr) # some_array.npz 로 저장 np.load('some_array.npz') np.save와 np.load 함수를 통해 배열 데이터를 디스크에 저장하고 불러올 수 있다. 배열은 기본적으로 압축되지 않은 원시 바이너리 형식의 .n..
2022.02.21 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열지향 프로그래밍 Numpy 배열을 사용하면 반복문을 작성하지 않고 간결한 배열 연산을 사용해 많은 종류의 데이터 처리 작업을 할 수 있다. 배열 연산을 사용해서 반복문을 명시적으로 제거하는 기법을 벡터화라 부른다. 일반적으로 벡터화된 배열에 대한 산술 연산은 순수 파이썬 연산에 비해 처리 시간이 빠르다. 배열 연산을 하는 방법에 대해 알아보자. 1. 배열 연산으로 조건절 표현하기 numpy.where 함수는 x if 조건 else y 같은 삼항식의 벡터화된 버전이다. 다음..
[Data Science / Chapter 1.4] Numpy 기본 사용법(3) - 배열 지향 프로그래밍/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열지향 프로그래밍 Numpy 배열을 사용하면 반복문을 작성하지 않고 간결한 배열 연산을 사용해 많은 종류의 데이터 처리 작업을 할 수 있다. 배열 연산을 사용해서 반복문을 명시적으로 제거하는 기법을 벡터화라 부른다. 일반적으로 벡터화된 배열에 대한 산술 연산은 순수 파이썬 연산에 비해 처리 시간이 빠르다. 배열 연산을 하는 방법에 대해 알아보자. 1. 배열 연산으로 조건절 표현하기 numpy.where 함수는 x if 조건 else y 같은 삼항식의 벡터화된 버전이다. 다음..
2022.02.21 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 유니버셜 함수 유니버셜 함수(ufunc)는 ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수이다. 유니버설 함수는 하나 이상의 스칼라값을 받아서 하나 이상의 스칼라 결과값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수이다. (결론: 빠르다) ufunc의 예시로 sqrt(제곱근) / exp(지수함수) 같은 간단한 변형을 전체 원소에 적용할 수 있다. 유니버셜 함수에 대해 자세히 알아보자. 1. 단항 유니버셜 함수 단항 유니버셜 함수는 인자를 ..
[Data Science / Chapter 1.3] Numpy 기본 사용법(2) - 유니버셜 함수(ufunc)/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 유니버셜 함수 유니버셜 함수(ufunc)는 ndarray 안에 있는 데이터 원소별로 연산을 수행하는 함수이다. 유니버설 함수는 하나 이상의 스칼라값을 받아서 하나 이상의 스칼라 결과값을 반환하는 간단한 함수를 고속으로 수행할 수 있는 벡터화된 래퍼 함수이다. (결론: 빠르다) ufunc의 예시로 sqrt(제곱근) / exp(지수함수) 같은 간단한 변형을 전체 원소에 적용할 수 있다. 유니버셜 함수에 대해 자세히 알아보자. 1. 단항 유니버셜 함수 단항 유니버셜 함수는 인자를 ..
2022.02.17 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Numpy ndarray: 다차원 배열 객체 Numpy의 핵심 기능 중 하나인 ndarray는 N차원의 배열 객체이다. 이는 파이썬에서 사용할 수 있는 대규모 데이터 집하블 담을 수 있는 빠르고 유연한 자료구조이다. 1. ndarray 속성 ndarray 배열은 각 차원의 크기를 알려주는 shape(튜플) 과 배열에 저장된 자료형을 알려주는 dtype 이라는 객체, 차원 ndim 을 가지고 있다. ndarray 속성은 다음과 같다. 2. ndarray 생성하기 Numpy 에서..
[Data Science / Chapter 1.2] Numpy 기본 사용법(1) - Ndarray/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Numpy ndarray: 다차원 배열 객체 Numpy의 핵심 기능 중 하나인 ndarray는 N차원의 배열 객체이다. 이는 파이썬에서 사용할 수 있는 대규모 데이터 집하블 담을 수 있는 빠르고 유연한 자료구조이다. 1. ndarray 속성 ndarray 배열은 각 차원의 크기를 알려주는 shape(튜플) 과 배열에 저장된 자료형을 알려주는 dtype 이라는 객체, 차원 ndim 을 가지고 있다. ndarray 속성은 다음과 같다. 2. ndarray 생성하기 Numpy 에서..
2022.02.14 -
• Numpy 란? NumPy는 Python의 과학 컴퓨팅을 위한 기본 패키지로 Python 라이브러리를 import하여 사용 가능합니다. • NumPy 배열과 표준 Python 시퀀스 간의 차이점 List와 Array의 차이점 일반적으로 Python은 배열(array)을 지원하지 않습니다. 일반적으로 착각하기 쉬운 부분으로 List와 Array는 정확히는 다른 것입니다. Array는 정적 할당에 해당하며, List의 경우는 동적 할당에 해당합니다. 동적으로 계속 크기가 변할 수 있는 Python List와 달리 NumPy Array는 고정된 크기를 갖습니다. Size를 변화하면 기존의 array를 삭제하고 새로운 array를 생성해야 합니다. Numpy를 사용하면 Array를 Python에서 사용할 수..
[Data Science / Chapter 1.1] Numpy란?• Numpy 란? NumPy는 Python의 과학 컴퓨팅을 위한 기본 패키지로 Python 라이브러리를 import하여 사용 가능합니다. • NumPy 배열과 표준 Python 시퀀스 간의 차이점 List와 Array의 차이점 일반적으로 Python은 배열(array)을 지원하지 않습니다. 일반적으로 착각하기 쉬운 부분으로 List와 Array는 정확히는 다른 것입니다. Array는 정적 할당에 해당하며, List의 경우는 동적 할당에 해당합니다. 동적으로 계속 크기가 변할 수 있는 Python List와 달리 NumPy Array는 고정된 크기를 갖습니다. Size를 변화하면 기존의 array를 삭제하고 새로운 array를 생성해야 합니다. Numpy를 사용하면 Array를 Python에서 사용할 수..
2021.02.17