Patrick's 데이터 세상

정형 데이터 마이닝 본문

Programming/R

정형 데이터 마이닝

patrick610 2020. 6. 25. 00:22
반응형
SMALL

   데이터 마이닝(data mining)은 흔히 '데이터 베이스에서의 지식발견(knowledge discovery in database)'이라고 불리우며 그 외에 지식추출(knowledge extraction), 정보수확(information harvesting), 정보고고학(data archeology), 데이터 패턴 프로세싱(data pattern processing) 등으로도 불리운다. 데이터 마이닝이란 용어는 대부분 통계학자들과 데이터베이스 학자들이 MIS분야와 경영분야 등에서 사용하는 용어이다.
   데이터 마이닝을 한마디로 정의하면, 거대한 양의 데이터 속에서 쉽게 드러나지 않은 유용한 정보를 찾아내는 과정이라고 할 수 잇다.

 

 

분류 분석


   분류 분석은 반응변수(또는 종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행하는 것이 목적이다. 반응변수가 범주형인 경우의 예측모형은 새로운 자료에 대한 분류(classification)가 주목적이며, 반응변수가 연속형인 경우에는 그 값을 예측(prediction)하는 것이 주목적이라 할 수 있다. 따라서 예측과 분류는 유사한 의미로 사용된다. 예측 및 분류 기법은 목표마케팅, 성과예측, 의학진단, 사기검출, 제조 등 다양한 분야에 이용되고 있다.

   많이 사용되는 분류 분석 모형으로는 본서에서 다루게 될 로지스틱회귀(logistic regression)모형, 신경망(artificial neural network)모형, 의사결정나무(decision tree) 모형, 앙상블(ensemble) 모형을 비롯하여 규칙기반(rule-based) 분류, 사례기반(case-based) 분류, 인접이웃(nearest neighbor) 분류모형, 베이즈(bayesian) 분류모형, 서포트벡터기계(support vector machine), 유전자 알고리즘(genetic algorithm) 등이 있다.

 

   1. 로지스틱 회귀모형

   로지스틱회귀(logistic regression) 모형은 반응변수가 범주형인 경우에 적용되는 회귀분석 모형이다.
이 방법은 새로운 설명변수(또는 예측변수)의 값이 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를 추정하여(예측 모형), 추정 확률을 기준치에 따라 분류하는 목적으로 사용될 수도 있다.(분류모형), 이 때, 모형의 적합을 통해 추정된 확률을 사후확률(posterior probbability)이라 부르기도 한다.

   이항 반응변수 Y에 대해, 다중(multiple) 로지스틱회귀모형의 일반적 형태는 다음과 같다.

 

 

[예제 1] 반응변수의 범주가 2개인 로지스틱회귀를 적용하기 위해 iris 자료의 일부분만 이용하기로 한다.
            Species가 setosa와 versicolor인 100개의 자료만을 이용한다.

data(iris)
a <- subset(iris, Species == "setosa" | Species == "versicolor")
a$Species <- factor(a$Species)
str(a)

#Result

   위 결과에서 Species는 Factor형 변수(범주형 변수를 의미)로 setosa는 Y=1, versicolor는 Y=2로 인식하고 있음을 나타낸다. 
이 자료에 대해 로지스틱회귀가 적용될 때,  보다 큰 숫자인 versicolor일 때 오즈를 모형화하므로 해석에 유의할 필요가 있다.

 

glm() 함수를 이용하여 로지스틱 회귀모형을 수행한다. 이때 family=binomial 옵션을 사용한다.
summary() 함수를 통해 그 결과를 확인할 수 있다.

b <- glm(Species~Sepal.Length, data=a, family=binomial)
summary(b)

#Result

coef(b)

#Result

exp(coef(b)["Sepal.Length"])

#Result

반응형
LIST

'Programming > R' 카테고리의 다른 글

다변량 분석  (0) 2020.06.25
회귀 분석  (0) 2020.06.25
기초 통계 분석  (0) 2020.06.25
통계학 개론  (0) 2020.06.25
결측값 처리, 이상값 검색  (0) 2020.06.25
Comments