편향-분산 절충

2.2.2 편향-분산 절충

검정 MSE 곡선이 $U$ 모양을 보이는 것은 통계학습방법의 두 가지 상충되는 성질 때문이다.
주어진 값($x_0$)에 대한 기대(expected) 검정 MSE는 항상 세 가지의 기본적 수량인 $\hat{f}(x_0)$의 분산, $\hat{f}(x_0)$의 제곱편향, 그리고 오차항 $\epsilon$의 분산의 합으로 분해된다.

여기서 $E\left(y_0 - \hat{f}(x_0)\right)^2$ 은 기대 검정 MSE에 대한 정의로, 아주 큰 수의 훈련 자료들을 사용하여 $f$를 반복적으로 추정하고 각각을 $x_0$에서 검정했을 경우 얻어지는 검정 MSE의 평균을 말한다.

위의 식에 의하면 기대검정오차를 최소화하기 위해서는 낮은 분산낮은 편향을 동시에 달성하는 통계학습방법을 선택해야 한다. 분산은 본질적으로 음수가 아니고 제곱편향도 또한 음수가 아니다. 그러므로, 기대 검정 MSE는 축소불가능 오차인 $Var(\epsilon)$보다 작을 수 없다.

  • 분산: 다른 훈련 자료를 사용하여 추정하는 경우 $\hat{f}$ 가 변동되는 정도를 말한다.
    훈련자료는 통계학습방법을 적합하는 데 사용되므로, 다른 훈련자료를 사용하면 $\hat{f}$이 달라질 것이다.
    그러나 이상적으로는 $f$에 대한 추정이 훈련 자료에 따라 너무 많이 변동되지 않아야 한다.
    하지만, 분산이 높으면 훈련 데이터의 변화가 작아도 $\hat{f}$는 크게 변할 수 있다.
    일반적으로 통계학습방법의 유연성이 높을수록 분산도 더 높다.
  • 편향: 실제 문제를 훨씬 단순한 모델로 근사시킴으로 인해 발생하는 오차로, 극도로 복잡할수도 있다.
    일반적으로 유연성이 높은 방법일수록 편향이 적다.

원칙적으로 유연성이 높은 방법을 사용할수록 분산이 증가하고 편향은 감소할 것이다. 이러한 분산과 편향의 상대적 변동율이 검정 MSE가 증가 또는 감소하는지를 결정한다.
통계방법의 유연성을 증가시킴에 따라 편향은 처음에는 분산의 증가보다 더 빠르게 감소하는 경향이 있다. 하지만, 어떤 지점에서 유연성 증가는 편향에 거의 영향이 없지만 분산은 크게 증가시키기 시작한다.

Share