Patrick's 데이터 세상

통계학 개론 본문

Programming/R

통계학 개론

patrick610 2020. 6. 25. 00:20
반응형
SMALL

1. 통계 분석 개요

 

   가. 통계학 정의

      자료로부터 유용한 정보를 이끌어 내는 학문.
      유용한 정보를 이끌어 내는 작업에는 자료의 수집과 정리, 그리고 이를 해석하는 방법 등을 모두 포함한다.

 

   나. 모집단과 표본

      유용한 정보의 대상이 되는 것을 모집단이라고 한다.
      즉, 모집단은 우리가 알고자 하는 전체를 의미한다. 모집단을 구성하는 개체를 추출 단위 혹은 원소라고 한다.

      모집단에 대해 조사하는 방법에는 총조사(census)와 표본조사로 나뉜다.
      총조사는 모집단의 개체 모두를 조사하는 방법으로 많은 비용과 시간이 소요되므로 '인구주택 총조사' 등 특별한 경우를 제외하고는 실시되지 않는다.
      따라서 일부분만 조사하여 모집단에 대해 추론하는 것이 보통인데, 이러한 조사를 표본조사라고 하고 이때 조사하는 모집단의 일부분을 표본(sample)이라 한다.

      모집단에 대해 알고자 하는 값을 모수(parameter)라고 하고, 모수를 추론하기 위해 구하는 표본의 값들을 통계량(statistic)이라 한다.

      

   다. 표본추출의 방법

      ■ 단순랜덤추출법 : N개의 원소로 구성된 모집단에서 n개(𝑛 ≤ 𝑁)의 표본을 추출할 때 각 원소에 1, 2, 3, ⋅⋅⋅, N까지의 번호를 부여한다.
                                여기서 n개의 번호를 임의로 선택해 그 번호에 해당하는 원소를 표본으로 추출한다.

      ■ 계통추출법 : 모집단의 모든 원소들에게 1, 2, 3, ⋅⋅⋅, N의 일련번호를 부여하고 이를 순서대로 나열한 후에 K개(𝐾 ﹦ 𝑁/𝑛)씩 n개의 구간으로 나눈다.
                           첫 구간(1, 2, 3,  ⋅, K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 표본을 추출한다.

      ■ 집락추출법 : 모집단이 몇 개의 집락(cluster)이 결합된 형태로 구성돼 있고, 각 집단에서 원소들에게 일련번호를부여할 수 있는 경우에 이용된다. 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본을 
                           임의로 선택한다.

      ■ 층화추출법 : 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법이다.
                           이질적인 모집단의 원소들을 서로 유사한 것끼리 몇 개의 층(stratum)으로 나눈 후, 각 층에서 
                           표본을 랜덤 하게 추출.

 

   라. 자료의 종류

      ■ 명목척도 : 측정 대상이 어느 집단에 속하는지 분류하는 척도, 성별(남, 여) 구분, 출생지(서울특별시, 부산광역시, 경기도 등) 

      ■ 순서척도 : 측정 대상의 특성이 가지는 서열관계를 관측하는 척도로, 선택사항이 일정한 순서로 돼 있다.
                           특정 서비스의 선호도(아주 좋다, 좋다, 그저 그렇다, 싫다, 아주 싫다.)로 구분해 묻는 경우에 관측된 자료로 사용.

      ■ 구간척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 측정 결과가 숫자로 표현되나 해당 속성이 전혀 없는 상태인 절대적인 원점이 없다.
                           따라서 두 관측값 사이의 비율은 별 의미가 없게 되는 척도로 온도, 지수 등이 구간척도에 해당.

      ■ 비율척도 : 절대적 기준인 0 값이 존재하고 모든 사칙연산이 가능하며 제일 많은 정보를 가지고 있는 척도.
                           무게, 나이, 연간 소득, 제품 가격 등 숫자로 관측되는 일반적인 자료의 특성이 비율척도에 해당.

 

 

2. 통계 분석

 

   특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정을 하는 과정.
   대상 집단에 대한 정보란 자료를 요약 · 정리한 결과로 숫자 또는 그림으로 정리된 각종 통계를 의미.

   또한 통계적 추론이랑 수집된 자료를 이용해 대상 집단(모집단)에 대해 의사결정을 하는 것.
   '대상 집단의 특성값(모수)이 무엇일까?'를 추측하는 추정(estimation)과 대상 집단에 대해 특정한 가설을 설정한 후에 그 사걸의 채택여부를 결정하는 가설검정(hypothesis test)이 있다.
   이 외에도 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행하는 예측(forecasting)이 있다.

 

 

반응형
LIST

'Programming > R' 카테고리의 다른 글

회귀 분석  (0) 2020.06.25
기초 통계 분석  (0) 2020.06.25
결측값 처리, 이상값 검색  (0) 2020.06.25
데이터 마트 - 데이터 테이블  (0) 2020.06.25
데이터 마트 - plyr  (0) 2020.06.25
Comments