통계 검정

추론 통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다.

요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.

추론 통계시 집중하는 부분
  1. 표본집단은 모집단을 대표할 수 있는가?
    모집단의 일부인 표본을 보고 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영하고 있어야 한다.

  2. 표본의 확률분포는 어떠한가?

    어떤 분포이냐에 따라 추정을 위한 기법이 달라지기 때문에 중요하다.
    다만 표본의 수가 많아질 수록 정규분포에 근사하게 된다.

  3. 추정된 결과에 신뢰성이 있는가?
    추정된 결과를 활용할 수 있는지를 결정하는 요소이기 때문에 중요하다.

가설 검정의 절차

주요 용어 정리
  1. 가설
    귀무가설 (=영가설=H0)
    일반적으로 맞다고 가정하는 가설을 말한다.

    대립가설 (=H1)
    새롭게 맞다고 증명하려는 가설을 말한다.

    예를 들어 회귀분석의 경우 귀무가설은 “설명변수(x)는 반응변수(y)에 영향을 주지 않는다.” 이고 대립가설은 “설명변수(x)는 반응변수(y)에 영향을 준다” 이다.

    귀무가설은 차이가 없다, 영향력이 없다, 연관성이 없다, 효과가 없다.
    대립가설은 차이가 있다, 영향력이 있다, 연관성이 있다, 효과가 있다.

  2. 검정방법 (양측검정, 단측검정, 좌측검정, 우측검정)
    양측검정
    귀무가설을 기각하는 영역이 양쪽에 있는 검정을 말한다.
    대립가설이 000가 아니다 (크거나 작다) 라면 양측검정을 사용한다.

    단측검정

    귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정을 말한다.
    대립가설이 000 보다 작다 또는 크다 인 경우 단측 검정을 사용한다.

    좌측검정
    단측검정 중 하나로, 귀무가설을 기각하는 영역이 왼쪽에 있는 검정을 말한다.
    대립가설이 000 보다 작다 인 경우 좌측검정을 사용한다.

    우측검정
    단측검정 중 하나로, 귀무가설을 기각하는 영역이 오른쪽에 있는 검정을 말한다.
    대립가설이 000보다 크다 인 경우 우측검정을 사용한다.

  3. 신뢰/유의
    신뢰수준
    가설을 검정할 때 얼마나 빡빡하게 검정할 것인지를 결정하는 수준을 말한다.
    연구활동은 99%, 일반적으로는 95%, 단순설문조사는 90% 정도의 신뢰수준을 사용한다.

    유의수준 ($\alpha$)
    가설을 검정할 때 이 정도까지 벗어나면 귀무가설이 오류라고 인정하겠다 하는 수준을 말한다.
    유의수준 = 1 - 신뢰수준
    유의수준 = $\sum$ 기각역

    기각역
    확률분포에서 귀무가설을 기각하는 영역을 말한다.
    기각역에 검정통계량이 위치하면 귀무가설을 기각한다.
    양측검정인 경우 기각역은 유의수준 / 2 이고, 단측검정인 경우 기각역은 유의수준과 같다.

    신뢰구간
    신뢰구간에 포함되는 x값 구간을 말한다.

    임계치
    신뢰구간에서 기각역으로 넘어가는 기준이 되는 x값을 말한다.

    검정통계량
    가설을 검정하기 위한 기준으로 사용하는 값(t 값 등)을 말한다.
    검정통계량이 확률분포 상에 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않는다.

    유의확률 (p-value)
    자유도를 고려했을 때 검정통계량에 대한 확률을 말한다. (귀무가설의 신뢰구간을 벗어나는 확률)
    기각역보다 유의확률이 작아야 귀무가설을 기각할 수 있다.

    자유도
    x값이 가질 수 있는 값의 범위를 말한다.
    자유도가 주어지지 않는 경우, $\text{자유도}=\text{표본수}(n) - 1$

  4. 가설 검정 예시

출처
Share