모델의 정확도 평가

귀무가설을 기각하고 대립가설을 채택했다면, 모델이 데이터에 적합한 정도를 수량화 하고자 할 것이다.
선형회귀적합의 질(quality)은 보통 잔차표준오차(RSE)와 $R^2$ 통계량을 사용하여 평가한다.

  • Advertising 자료의 TV 광고예산에 대한 판매량의 회귀에서 최소제곱모델에 대한 추가 정보.

잔차표준오차 (RSE)

$Y = \beta_0 + \beta_1X + \epsilon$ 는 각 관측치에 오차항 $\epsilon$ 이 관련되어 있다. 이러한 오차항 때문에 실제 회귀선을 알아도 (즉, $\beta_0$ 와 $\beta_1$ 이 알려져 있어도) $X$ 로부터 $Y$ 를 정확하게 예측할 수는 없을 것이다. RSE는 $\epsilon$ 의 표준편차에 대한 추정값으로, 대략 반응변수 값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미한다.
RSE는 다음 식을 사용하여 계산된다.

RSS는 아래식과 같다.

광고자료에 대한 위의 표의 선형회귀 결과를 보면 RSE는 3.26이다. 다시 말하면, 각 마켓의 실제 판매량은 평균적으로 실제 회귀선으로부터 대략 3,260대 정도 벗어난다. 다른 각도에서 살펴보면, 심지어 모델이 정확하고 $\beta_0$ 와 $\beta_1$ 의 실제값을 정확하게 알고 있더라도 TV 광고에 기초한 판매량의 예측값은 여전히 평균적으로 3,260대만큼 다를 수 있다. 물론, 3,260의 예측오차가 수용가능한 수준인지는 문제 상황에 따라 다르다. 모든 마켓에 대한 평균 판매 수치는 대략 14,000대이다. 따라서 백분률오차는 3,260 / 14,000 = 23%이다.

RSE는 데이터에 대한 모델의 적합성결여(lack of fit)를 나타내는 측도로 간주된다. 만약 모델을 사용하여 얻은 예측값이 실제 결과값에 아주 가까우면 (즉, $i = 1, \cdots, n$에 대해 $\hat{y}_i \approx y_i$ 이면) RSE는 작을 것이고 모델이 데이터를 잘 적합한다고 결론을 내릴 수 있다. 반면에, 만약 $\hat{y}_i$ 가 하나 또는 그 이상의 관측치에 대해 $y_i$ 와 아주 크게 다르면 RSE는 상당히 큰 값이 될 수 있으며, 이것은 모델이 데이터를 잘 적합하지 않는다는 것을 나타낸다.

$R^2$ 통계량

RSE는 데이터에 대한 모델의 적합성결여를 나타내는 절대적 측도가 된다. 하지만 이것은 $Y$ 의 단위로 측정되므로 적정한 RSE가 무엇인지 항상 명확한 것은 아니다. $R^2$ 통계량은 적합도에 대한 다른 측도를 제공한다. 이것은 설명된 분산의 비율의 형태를 취하므로 항상 0과 1사이의 값을 가지며 $Y$ 의 크기와는 무관하다.

$R^2$는 다음 식을 사용하여 계산된다.

여기서, $\text{TSS} = \sum(y_i - \bar{y})^2$ 는 총제곱합(total sum of squares) 이다. TSS는 반응변수 $Y$ 의 총분산을 측정하며 회귀가 수행되기 전에 반응변수에 내재하는 변동량으로 생각할 수 있다. 이에 반해 RSS는 회귀가 수행된 후에 설명되지 않고 남아있는 변동량을 측정한다. 그러므로 TSS - RSS 는 회귀를 수행함으로써 설명된(또는 제거된) 반응변수의 변동량을 측정하고, $R^2$ 은 $X$ 를 사용하여 설명될 수 있는 $Y$ 의 변동비율(proportion of variability)을 측정한다. $R^2$ 통계량이 1에 가까우면 반응변수의 변동 중 많은 부분이 회귀에 의해 설명되었다는 것을 나타낸다. $R^2$ 통계량이 거의 0이면 반응변수의 변동 중 대부분이 회귀에 의해 설명되지 않았다는 것을 나타낸다.

$R^2$ 통계량은 RSE 에 비해 해석이 쉽다는 장점이 있다. 왜냐하면 RSE 와는 달리 그 값이 항상 0과 1 사이에 있기 때문이다. 하지만 좋은 $R^2$ 값이 무엇인지에 대한 결정은 여전히 어려울 수 있고 일반적으로 응용에 따라 다를 것이다.

예를 들어, 어떤 물리학 문제에서는 데이터가 명백히 작은 잔차오차를 가지는 선형모델에서 나온 것임을 알 수도 있다. 이러한 경우, $R^2$ 값은 1에 아주 가까울 것으로 예상할 것이며, 만약 그렇지 않다면 데이터가 생성된 실험에 심각한 문제가 있음을 나타낼 수도 있다. 반면에 생물학, 심리학, 마케팅 및 다른 영역의 전형적인 응용에서 선형모델은 데이터에 대한 아주 대략적인 근사에 불과하며, 잔차오차는 다른 측정되지 않은 요인들로 인해 보통 아주 크다. 이러한 환경에서는 반응변수의 분산 중 아주 작은 비율이 설명변수에 의해 설명될 것으로 예상되며, 0.1보다 훨씬 작은 $R^2$ 값이 현실적일 수도 있다.

$R^2$ 통계량은 $X$ 와 $Y$ 사이의 선형상관관계에 대한 측도이다. 다음과 같이 정의되는 상관(correlation) 계수도 $X$ 와 $Y$ 사이의 선형상관관계의 측도임을 기억해야한다.

이것은 선형 모델의 적합성을 평가하기 위해 $R^2$ 대신 $r = Cor(X, Y)$ 를 사용할 수도 있음을 의미한다. 사실, 단순선형회귀에서 $R^2 = r^2$ 임을 보여줄 수 있다. 다시 말해, 상관계수의 제곱과 $R^2$ 통계량은 동일하다.

Share