목록Programming (117)
Patrick's 데이터 세상

1. 상관 분석 상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해 한다. 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다. 상관계수에는 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰이는 피어슨 상관계수(Pearson correlation)와 서열척도인 두 변수들의 상관관계를 측정하는 데 사용하는 스피어만 상관계수(Spearman correlation)가 있다. 0

회귀 분석(Regression Analysis) 가. 단순회귀분석과 중회귀분석의 개념 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법. 영향을 받는 변수를 종속변수 혹은 반응변수라 하고 보통 y로 표기한다. 영향을 주는 변수를 독립변수 혹은 설명변수라 하고 보통 x, x1, x2 등으로 표기한다. 단순선형회귀모형은 회귀모형 중에서 가장 단순한 모형이다. 단순선형회귀모형은 한 개의 독립변수와 하나의 종속변수로 이루어져 있고, 오차항이 있는 선형관계로 다음과 같이 쓸 수 있다. 위의 모형에서 β0와 β1은 회귀계수라 하고, 특히 β1은 독립션수 x1의 회귀계수라 한다. ϵi는 오차항으로 보통의 경우 평균이 0이고 분산이 σ^2인 정규모형을 따른다고 가정한다..

기술 통계 data(iris) head(iris) #Result ※ data는 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수이다. 데이터 프레임은 R에서 행렬 형태의 자료를 담아두는 자료의 구조이다. head는 데이터를 기본 6줄을 보여주어 데이터가 성공적으로 import 되었는지를 살펴볼 수 있는 함수이다. 특정 라인까지 보고 싶다면 head(iris, n)을 사용하여 n에 숫자를 지정해주면 된다. summary(iris) #Result ※ summary는 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여준다. 아래의 예를 보면 summary는 iris 데이터 프레임의 각 컬럼에 대하여 최소값(min), 최대값(max), 25% 백분위수(1st Qu), 75% 백분위수(3r..
1. 통계 분석 개요 가. 통계학 정의 자료로부터 유용한 정보를 이끌어 내는 학문. 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다. 나. 모집단과 표본 유용한 정보의 대상이 되는 것을 모집단이라고 한다. 즉, 모집단은 우리가 알고자 하는 전체를 의미한다. 모집단을 구성하는 개체를 추출 단위 혹은 원소라고 한다. 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉜다. 총조사는 모집단의 개체 모두를 조사하는 방법으로 많은 비용과 시간이 소요되므로 '인구주택 총조사' 등 특별한 경우를 제외하고는 실시되지 않는다. 따라서 일부분만 조사하여 모집단에 대해 추론하는 것이 보통인데, 이러한 조사를 표본조사라고 하고 이때 조사하는 모집단의 일..

데이터 탐색 데이터를 본격 분석하기 앞서 대략의 데이터의 특성을 파악하고, 데이터에 대한 통찰을 얻기 위해 다각도로 접근함. ⊙ 데이터 기초 통계 data(iris) head(iris) # 데이터에서 앞 6줄만 보도록 한다. #Result head(iris,10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있다. #Result str(iris) # 데이터의 구조를 파악하도록 한다. #Result summary(iris) # 데이터의 기초통계량을 볼 수 있다. # 연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범주형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악한다. # 연속형 변수의 경우 cov와 cor함수를 ㅗㅇ해 공분산행렬과 상관계수행렬을 출력하여 ..

데이터 테이블(data.table)은 데이터 프레임과 유사하지만 보다 빠른 그룹화(grouping)와 순서화(ordering), 짧은 문장 지원 측면에서 데이터 프레임보다 매력적이다. 하지만 무조건 빠른 것이 아니므로 특성에 맞게 사용해야 한다. 특히 64비트 환경에서 RAM이 충분히 많을 때는 효율적이다. install.packages("data.table") library(data.table) data.table() 함수를 이용하여 데이터 프레임을 생성. DT = data.table(x=c("b","b","b","a","a"), v=rnorm(5)) # 정규분포에서 5개의 난수 생성 DT #Result data.table도 data.frame과 같은 방법으로 생성된다. 데이터 프레임과 다른 점은 데이..