Data
-
벡터 R의 데이터 컬렉션 `데이터 컬렉션`은 앞에서 배운 변수들의 보관함이라고 생각하면 됩니다. R에서의 데이터 컬렉션에는 대표적으로 `벡터`, `리스트`, `행렬`, `배열`, `데이터 프레임`등이 있는데요. 참고로 데이터 컬렉션도 변수가 될 수 있습니다. 예를들어 벡터들도 어떤 통에 담겨 보관될 수 있는데요. 이에 대해서는 후에 다루겠습니다. 이번 게시글에서는 R에서 가장 간단한 데이터 컬렉션의 `벡터`에 대해 알아보겠습니다. 벡터란? `벡터`는 동일한 데이터 타입을 가지는 원소들의 배열입니다.이는 마치 C 언어에서의 배열과 비슷한데요. 보통 배열은 이미 크기가 정해져 있습니다. 참고로 R의 배열(데이터 컬렉션)이랑 지금 말하는 배열은 다릅니다! R의 `벡터`도 크기가 이미 결정되어 있어, 원소(데..
[R] 벡터벡터 R의 데이터 컬렉션 `데이터 컬렉션`은 앞에서 배운 변수들의 보관함이라고 생각하면 됩니다. R에서의 데이터 컬렉션에는 대표적으로 `벡터`, `리스트`, `행렬`, `배열`, `데이터 프레임`등이 있는데요. 참고로 데이터 컬렉션도 변수가 될 수 있습니다. 예를들어 벡터들도 어떤 통에 담겨 보관될 수 있는데요. 이에 대해서는 후에 다루겠습니다. 이번 게시글에서는 R에서 가장 간단한 데이터 컬렉션의 `벡터`에 대해 알아보겠습니다. 벡터란? `벡터`는 동일한 데이터 타입을 가지는 원소들의 배열입니다.이는 마치 C 언어에서의 배열과 비슷한데요. 보통 배열은 이미 크기가 정해져 있습니다. 참고로 R의 배열(데이터 컬렉션)이랑 지금 말하는 배열은 다릅니다! R의 `벡터`도 크기가 이미 결정되어 있어, 원소(데..
2023.10.13 -
이번 게시글에서는 R에서 가장 기초가 되는 변수와 기본 데이터 타입, 연산자에 대해 알아보겠습니다. 1. 변수 `변수`란 변할 수 있는 데이터를 말합니다. R에서는 데이터 분석의 대상이 되는 데이터를 의미합니다. 반대되는 개념으로는 상수가 있죠. R에서의 상수 개념은 기존의 다른 프로그래밍 언어의 상수(변하지 않는 값) 의미와는 다른데요. R에서의 `상수`는 데이터의 속성이 하나의 값으로 이루어져 있어 데이터 분석을 할 가치가 없는 데이터를 의미합니다. 변수 선언과 대입 변수를 선언하는 방법은 다음과 같습니다. var
[R] R 기초 (변수, 기본 데이터 타입, 연산자)이번 게시글에서는 R에서 가장 기초가 되는 변수와 기본 데이터 타입, 연산자에 대해 알아보겠습니다. 1. 변수 `변수`란 변할 수 있는 데이터를 말합니다. R에서는 데이터 분석의 대상이 되는 데이터를 의미합니다. 반대되는 개념으로는 상수가 있죠. R에서의 상수 개념은 기존의 다른 프로그래밍 언어의 상수(변하지 않는 값) 의미와는 다른데요. R에서의 `상수`는 데이터의 속성이 하나의 값으로 이루어져 있어 데이터 분석을 할 가치가 없는 데이터를 의미합니다. 변수 선언과 대입 변수를 선언하는 방법은 다음과 같습니다. var
2023.10.13 -
R 패키지 다운받기 Python 에서 pip 를 통해 쉽게 패키지를 설치하듯이 R에서도 쉽게 패키지를 다운받을 수 있는데요. 이번 게시글에서는 R에서 패키지를 받고 사용하는 방법에 대해 한번 알아보겠습니다. CRAN 에서 패키지 다운 및 사용하기 보통 R에서는 `CRAN`이라는 가장 큰 R 레포지토리에서 필요한 라이브러리를 설치할 수 있는데요. # install.packages("(패키지 이름)") install.packages("ggplot2") 위 예시처럼 `install.packages()`를 통하여 패키지를 설치할 수 있습니다. library("ggplot2") 패키지를 사용하고 싶은 경우, `library()`를 코드 스크립트에 추가하여 설치한 패키지를 불러올 수 있습니다. Github 에서 패..
[R] 패키지(외부 라이브러리) 다운 및 사용하기R 패키지 다운받기 Python 에서 pip 를 통해 쉽게 패키지를 설치하듯이 R에서도 쉽게 패키지를 다운받을 수 있는데요. 이번 게시글에서는 R에서 패키지를 받고 사용하는 방법에 대해 한번 알아보겠습니다. CRAN 에서 패키지 다운 및 사용하기 보통 R에서는 `CRAN`이라는 가장 큰 R 레포지토리에서 필요한 라이브러리를 설치할 수 있는데요. # install.packages("(패키지 이름)") install.packages("ggplot2") 위 예시처럼 `install.packages()`를 통하여 패키지를 설치할 수 있습니다. library("ggplot2") 패키지를 사용하고 싶은 경우, `library()`를 코드 스크립트에 추가하여 설치한 패키지를 불러올 수 있습니다. Github 에서 패..
2023.10.13 -
안녕하세요! 이번 게시글에서는 제가 R을 배우게 된 이유부터 Mac 환경에서 R을 사용하기 위한 기본 세팅들에 대해 다루고자 합니다. R에 대해.. R을 배우게 된 이유 제가 R을 배운 이유는 바로 제 복수전공인 빅데이터 전공에서 R을 다루기 때문인데요. 물론 모든 강의에서 다 R을 쓰지는 않고 파이썬을 쓰는 경우도 있습니다. (비율은 반반? 정도 되네요) 저는 사실 R을 배우기 전에 '굳이 범용성 좋은 Python이 있는데 R을 배울 필요가 있을까?'라는 생각을 했었는데요. 저도 아직 R에 대해 미숙하지만, Python과 R을 둘다 사용하면서 느낀 차이점을 간단하게 설명해보겠습니다. R은 통계 및 데이터 분석에 특화 R은 통계적인 분석에 강합니다. 벨연구소의 통계 분석 언어인 S에서 파생된 R은 당연하..
[R] R 시작하기(R을 배운 이유 + 기본 세팅 in Mac)안녕하세요! 이번 게시글에서는 제가 R을 배우게 된 이유부터 Mac 환경에서 R을 사용하기 위한 기본 세팅들에 대해 다루고자 합니다. R에 대해.. R을 배우게 된 이유 제가 R을 배운 이유는 바로 제 복수전공인 빅데이터 전공에서 R을 다루기 때문인데요. 물론 모든 강의에서 다 R을 쓰지는 않고 파이썬을 쓰는 경우도 있습니다. (비율은 반반? 정도 되네요) 저는 사실 R을 배우기 전에 '굳이 범용성 좋은 Python이 있는데 R을 배울 필요가 있을까?'라는 생각을 했었는데요. 저도 아직 R에 대해 미숙하지만, Python과 R을 둘다 사용하면서 느낀 차이점을 간단하게 설명해보겠습니다. R은 통계 및 데이터 분석에 특화 R은 통계적인 분석에 강합니다. 벨연구소의 통계 분석 언어인 S에서 파생된 R은 당연하..
2023.10.12 -
R 정리본 R에 대해 공부한 내용(R 기초, 시각화, 회귀 분석 등)을 한눈에 볼 수 있도록 정리한 게시글입니다. R 기초편 1. R 시작하기 (R이란? + 기본 세팅) [R] R 시작하기(R을 배운 이유 + 기본 세팅 in Mac) 2. R 패키지 다운 및 사용하기 [R] 패키지(외부 라이브러리) 다운 및 사용하기 3. R의 변수, 데이터 타입, 연산자 [R] R 기초 (변수, 기본 데이터 타입, 연산자) 4. R의 벡터 [R] 데이터 컬렉션 - 벡터 5. R 문법 [R] R 문법 6. R의 Data Structure (행렬, 배열, 리스트, 데이터 프레임) [R] 행렬과 배열 [R] 리스트 [R] 데이터 프레임 7. apply 계열 함수 [R] apply 계열 함수 - apply, lapply, sa..
[R] R 정리본R 정리본 R에 대해 공부한 내용(R 기초, 시각화, 회귀 분석 등)을 한눈에 볼 수 있도록 정리한 게시글입니다. R 기초편 1. R 시작하기 (R이란? + 기본 세팅) [R] R 시작하기(R을 배운 이유 + 기본 세팅 in Mac) 2. R 패키지 다운 및 사용하기 [R] 패키지(외부 라이브러리) 다운 및 사용하기 3. R의 변수, 데이터 타입, 연산자 [R] R 기초 (변수, 기본 데이터 타입, 연산자) 4. R의 벡터 [R] 데이터 컬렉션 - 벡터 5. R 문법 [R] R 문법 6. R의 Data Structure (행렬, 배열, 리스트, 데이터 프레임) [R] 행렬과 배열 [R] 리스트 [R] 데이터 프레임 7. apply 계열 함수 [R] apply 계열 함수 - apply, lapply, sa..
2023.10.12 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 색인 객체 색인(Index) 객체란? pandas 의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체이다. Series 나 DataFrame 객체를 생성할 때 사용되는 배열(리스트, ndarray, 튜플 등)나 다른 순차적인 이름은 내부적으로 색인으로 변환된다. 예시를 통해 확인해보자. 색인 객체 예시 obj = pd.Series(range(3), index=['a', 'b', 'b']) index = obj.i..
[Data Science / Chapter 2.4] Pandas 자료구조 - 색인 객체/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 색인 객체 색인(Index) 객체란? pandas 의 색인 객체는 표 형식의 데이터에서 각 로우와 컬럼에 대한 이름과 다른 메타데이터(축의 이름 등)을 저장하는 객체이다. Series 나 DataFrame 객체를 생성할 때 사용되는 배열(리스트, ndarray, 튜플 등)나 다른 순차적인 이름은 내부적으로 색인으로 변환된다. 예시를 통해 확인해보자. 색인 객체 예시 obj = pd.Series(range(3), index=['a', 'b', 'b']) index = obj.i..
2022.03.04 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ DataFrame 1. DataFrame 이란? DataFrame 은 표 같은 스프레드시트 형식의 자료구조이다. (엑셀을 생각하면 된다.) 여러 개의 칼럼이 있는데 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장한다. 2. DataFrame 다루기 DataFrame 객체 생성하기 D..
[Data Science / Chapter 2.3] Pandas 자료구조 - DataFrame/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ DataFrame 1. DataFrame 이란? DataFrame 은 표 같은 스프레드시트 형식의 자료구조이다. (엑셀을 생각하면 된다.) 여러 개의 칼럼이 있는데 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다. DataFrame은 로우와 컬럼에 대한 색인을 가지고 있는데, 색인의 모양이 같은 Series 객체를 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장한다. 2. DataFrame 다루기 DataFrame 객체 생성하기 D..
2022.03.03 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas 자료구조 - Series pandas의 대표적인 자료구조인 Series, DataFrame 에 대해 알아보자. 이 두 가지 자료구조를 배우면 대부분의 애플리케이션에서 사용하기 쉬우며 탄탄한 기반이 되어줄 것이다. Series Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다. 그리고 색인(index) 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다. ( 파이썬의 Dictionary형과 비슷하다) Series 객체 생성하기 # inde..
[Data Science / Chapter 2.2] Pandas 자료구조 - Series/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas 자료구조 - Series pandas의 대표적인 자료구조인 Series, DataFrame 에 대해 알아보자. 이 두 가지 자료구조를 배우면 대부분의 애플리케이션에서 사용하기 쉬우며 탄탄한 기반이 되어줄 것이다. Series Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다. 그리고 색인(index) 이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다. ( 파이썬의 Dictionary형과 비슷하다) Series 객체 생성하기 # inde..
2022.02.23 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas란? Pandas 란? pandas는 데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과..
[Data Science / Chapter 2.1] Pandas란?/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ Pandas란? Pandas 란? pandas는 데이터 조작 및 분석을 위한 Python 으로 작성된 라이브러리이다. 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하고 있다. (라이브러리는 Cython 또는 C로 작성된 코드를 사용하여 성능에 대해 최적화가 되어 있다.) pandas 는 다른 산술 계산 도구인 Numpy 와 Scipy, 분석 라이브러리인 statsmodels 와 scikit-learn, 시각화 도구인 matplotlib 과..
2022.02.23 -
/* 본 게시물은 ' ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 제목 참고 자료 [URL] :
[Data Science / Chapter 1.7] Numpy 기본 사용법(6) - 선형대수/* 본 게시물은 ' ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 제목 참고 자료 [URL] :
2022.02.23 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 난수 생성 Numpy.random 모듈 numpy.random 모듈은 파이썬 내장 random 함수를 보강하여 다양한 종류의 확률분포로부터 효과적으로 표본값을 생성하는데 주로 사용된다. 표본정규분포 표본 생성 randomData = np.random.normal(size=(4,4)) print(randomData) """ [[ 5.96710372e-01 -5.86135000e-01 1.19199216e-01 -1.90140372e+00] [ 9.86277664e-01 3.92..
[Data Science / Chapter 1.6] Numpy 기본 사용법(5) - 난수 생성 (Random)/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 난수 생성 Numpy.random 모듈 numpy.random 모듈은 파이썬 내장 random 함수를 보강하여 다양한 종류의 확률분포로부터 효과적으로 표본값을 생성하는데 주로 사용된다. 표본정규분포 표본 생성 randomData = np.random.normal(size=(4,4)) print(randomData) """ [[ 5.96710372e-01 -5.86135000e-01 1.19199216e-01 -1.90140372e+00] [ 9.86277664e-01 3.92..
2022.02.21 -
/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열 데이터의 파일 입출력 Numpy 는 디스크에서 텍스트나 바이너리 형식의 데이터를 불러오거나 저장할 수 있다. 파일 입출력 np.save / np.load arr = np.arange(10) np.save('some_array', arr) # some_array.npz 로 저장 np.load('some_array.npz') np.save와 np.load 함수를 통해 배열 데이터를 디스크에 저장하고 불러올 수 있다. 배열은 기본적으로 압축되지 않은 원시 바이너리 형식의 .n..
[Data Science / Chapter 1.5] Numpy 기본 사용법(4) - 배열 데이터의 파일 입출력/* 본 게시물은 ' 파이썬 라이브러리를 활용한 데이터 분석 2판 | with 웨스 맥키니 ' 의 내용과 참고자료를 토대로 작성되었습니다. */ /* 본 글은 개인적으로 공부한 내용을 정리한 글이므로 오류가 있을 수 있습니다. */ 배열 데이터의 파일 입출력 Numpy 는 디스크에서 텍스트나 바이너리 형식의 데이터를 불러오거나 저장할 수 있다. 파일 입출력 np.save / np.load arr = np.arange(10) np.save('some_array', arr) # some_array.npz 로 저장 np.load('some_array.npz') np.save와 np.load 함수를 통해 배열 데이터를 디스크에 저장하고 불러올 수 있다. 배열은 기본적으로 압축되지 않은 원시 바이너리 형식의 .n..
2022.02.21