목록Programming/R (18)
Patrick's 데이터 세상

데이터 마이닝(data mining)은 흔히 '데이터 베이스에서의 지식발견(knowledge discovery in database)'이라고 불리우며 그 외에 지식추출(knowledge extraction), 정보수확(information harvesting), 정보고고학(data archeology), 데이터 패턴 프로세싱(data pattern processing) 등으로도 불리운다. 데이터 마이닝이란 용어는 대부분 통계학자들과 데이터베이스 학자들이 MIS분야와 경영분야 등에서 사용하는 용어이다. 데이터 마이닝을 한마디로 정의하면, 거대한 양의 데이터 속에서 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정이라고 할 수 잇다. 분류 분석 분류 분석은 반응변수(또는 종속변수)가 알려진 다변량 자료를 이용..

1. 상관 분석 상관분석(Correlation Analysis)은 데이터 안의 두 변수 간의 관계를 알아보기 위해 한다. 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다. 상관계수에는 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰이는 피어슨 상관계수(Pearson correlation)와 서열척도인 두 변수들의 상관관계를 측정하는 데 사용하는 스피어만 상관계수(Spearman correlation)가 있다. 0

회귀 분석(Regression Analysis) 가. 단순회귀분석과 중회귀분석의 개념 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법. 영향을 받는 변수를 종속변수 혹은 반응변수라 하고 보통 y로 표기한다. 영향을 주는 변수를 독립변수 혹은 설명변수라 하고 보통 x, x1, x2 등으로 표기한다. 단순선형회귀모형은 회귀모형 중에서 가장 단순한 모형이다. 단순선형회귀모형은 한 개의 독립변수와 하나의 종속변수로 이루어져 있고, 오차항이 있는 선형관계로 다음과 같이 쓸 수 있다. 위의 모형에서 β0와 β1은 회귀계수라 하고, 특히 β1은 독립션수 x1의 회귀계수라 한다. ϵi는 오차항으로 보통의 경우 평균이 0이고 분산이 σ^2인 정규모형을 따른다고 가정한다..

기술 통계 data(iris) head(iris) #Result ※ data는 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수이다. 데이터 프레임은 R에서 행렬 형태의 자료를 담아두는 자료의 구조이다. head는 데이터를 기본 6줄을 보여주어 데이터가 성공적으로 import 되었는지를 살펴볼 수 있는 함수이다. 특정 라인까지 보고 싶다면 head(iris, n)을 사용하여 n에 숫자를 지정해주면 된다. summary(iris) #Result ※ summary는 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여준다. 아래의 예를 보면 summary는 iris 데이터 프레임의 각 컬럼에 대하여 최소값(min), 최대값(max), 25% 백분위수(1st Qu), 75% 백분위수(3r..
1. 통계 분석 개요 가. 통계학 정의 자료로부터 유용한 정보를 이끌어 내는 학문. 유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다. 나. 모집단과 표본 유용한 정보의 대상이 되는 것을 모집단이라고 한다. 즉, 모집단은 우리가 알고자 하는 전체를 의미한다. 모집단을 구성하는 개체를 추출 단위 혹은 원소라고 한다. 모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉜다. 총조사는 모집단의 개체 모두를 조사하는 방법으로 많은 비용과 시간이 소요되므로 '인구주택 총조사' 등 특별한 경우를 제외하고는 실시되지 않는다. 따라서 일부분만 조사하여 모집단에 대해 추론하는 것이 보통인데, 이러한 조사를 표본조사라고 하고 이때 조사하는 모집단의 일..

데이터 탐색 데이터를 본격 분석하기 앞서 대략의 데이터의 특성을 파악하고, 데이터에 대한 통찰을 얻기 위해 다각도로 접근함. ⊙ 데이터 기초 통계 data(iris) head(iris) # 데이터에서 앞 6줄만 보도록 한다. #Result head(iris,10) # 숫자를 넣어주면 원하는 개수만큼 볼 수 있다. #Result str(iris) # 데이터의 구조를 파악하도록 한다. #Result summary(iris) # 데이터의 기초통계량을 볼 수 있다. # 연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범주형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악한다. # 연속형 변수의 경우 cov와 cor함수를 ㅗㅇ해 공분산행렬과 상관계수행렬을 출력하여 ..