모델의 정확도 평가

2019-12-11

ISLR, Inference, Prediction, Statistical Learning

2.2 모델의 정확도 평가

통계 분야에서 가능한 모든 자료에 대해 어떤 한 방법이 다른 방법들보다 지배적으로 더 나은 경우는 없다.
그러므로 주어진 자료에 대해 최고의 기법을 선택하는 것이 실제로 통계학습을 수행하는 데 있어서 가장 어려운 부분 중의 하나이다.

2.2.1 적합의 품질 측정

주어진 자료에 대한 통계학습방법의 성능을 평가하기 위해서는 이 방법에 의한 예측이 관측된 데이터와 실제로 얼마나 잘 맞는지 측정하는 방법이 필요하다. 즉, 주어진 관측치에 대해 예측된 반응 값이 관측치에 대한 실제 반응 값에 얼마나 가까운지를 수량화하는 것이 필요하다. 이러한 회귀 설정에서 가장 일반적으로 사용되는 측도는 평균제곱오차(MSE: mean squared error) 이다.

$\text{MSE} = \frac{1}{n}\sum_{i=1}^n\left(y_i - \hat{f}(x_i)\right)^2$

여기서, $\hat{f}(x_i)$는 $i$ 번째 관측치에 대한 예측값이다. 예측된 반응 값들이 실제 반응 값들과 아주 가까우면 MSE는 작을 것이다. 하지만, 일부 관측치들에 대한 예측값과 실제값이 상당히 다를 경우 MSE는 큰 값이 될 것이다.
위의 MSE는 모델을 적합하는 데 사용된 훈련 데이터(training data)를 사용하여 계산되므로 좀 더 정확하게 말해 훈련 MSE라고 한다. 그러나, 일반적으로는 통계학습방법이 훈련 데이터에 대해 얼마나 잘 동작하는지는 관심이 없다. 실제로 관심이 있는 것은 통계학습방법을 사전에 본적이 없는 검정 데이터(test data)에 적용할 때 얻는 예측 정확도이다.

사용할 수 있는 검정 관측치가 없으면, 훈련 MSE를 최소로 하는 통계학습방법을 선택하는 것을 생각해 볼 수도 있다. 하지만 훈련 MSE가 가장 낮은 방법이 검정 MSE도 가장 낮게 할 것이라는 보장이 없다.

왼쪽 패널에서 검은색 곡선으로 주어진 실제 $f$를 가지고 $Y = f(X) + \epsilon$ 다음의 함수로 부터 관측치들을 생성하였다. 오랜지색, 파란색, 녹색 곡선은 유연성 수준이 증가하는 방법들을 사용하여 얻은 세 가지 가능한 $f$에 대한 추정을 보여준다.
명백히 유연성의 수준이 증가할수록 곡선은 관측된 데이터를 더 가깝게 적합한다. 녹색 곡선이 가장 유연하며 데이터에 아주 잘 맞는다. 하지만, 이것은 너무 꾸불꾸불하기 때문에 실제 $f$를 잘 적합하지 못한다.
오른쪽 패널의 회색 곡선은 몇몇 함수들에 대해 평균 훈련 MSE를 유연성, 공식적으로는 자유도(degree of freedom) 의 함수로 나타낸 것이다. 자유도는 곡선의 유연성을 요약해주는 수치이다.
오랜지색, 파란색, 녹색 사각형들은 왼쪽 패널의 대응하는 곡선들과 연관된 MSE를 나타낸다.
검정 MSE는 처음에는 유연성이 증가함에 따라 줄어든다. 하지만, 어떤 지점 이후부터 검정 MSE는 다시 증가하기 시작한다.
오른쪽 패널의 수평 파선은 축소불가능 오차 $\text{Var}(\epsilon)$ 을 나타내며, 이것은 모든 가능한 방법들 중에서 달성할 수 있는 가장 낮은 검정 MSE에 해당한다.

통계학습의 유연성이 증가함에 따라 훈련 MSE는 단조 감소하지만 검정 MSE는 $U$ 모양을 보인다. 이것은 가지고 있는 자료와 사용되는 통계방법에 관계없이 성립하는 통계학습의 기본적인 성질이다. 모델의 유연성이 증가함에 따라 훈련 MSE는 감소할 것이지만, 검정 MSE는 그렇지 않을 수도 있다. 주어진 방법이 훈련 MSE는 작지만 검정 MSE는 큰 결과를 제공할 때 데이터를 과적합(overfitting)한다고 한다.
이러한 과적합은 통계학습 절차가 훈련 데이터에서 패턴을 찾는 데 지나치게 집중하여 알려지지 않은 함수 $f$의 실제 성질에 의한 것이 아니라 단순히 우연에 의한 어떤 패턴을 찾을 수도 있기 때문에 발생한다.

검정 MSE가 최소로 되는 지점을 실제로 추정하는 데 사용될 수 있는 기법 중의 하나는 교차검증(cross-validation) 인데, 이것은 훈련 데이터를 사용하여 검정 MSE를 추정하는 방법이다.