어떻게 $f$ 를 추정하는가?

2019-11-30

ISLR, Inference, Prediction, Statistical Learning

2.1.2 어떻게 $f$ 를 추정하는가?

우리의 목적은 통계학습방법을 훈련 데이터에 적용하여 알려지지 않은 함수 $f$를 추정하는 것이다.
다시 말하면, 임의의 관측치 $(X, Y)$ 에 대해 $Y \approx \hat{f}(X)$ 을 만족하는 함수 $f$를 찾고자 한다.
넓게 얘기하면, 이 일을 위한 대부분의 통계학습방법들은 모수적(parametric) 또는 비모수적(non-parametric) 으로 특징지을 수 있다.

모수적 방법 (Parametric Methods)

모수적 방법은 2단계로 된 모델 기반의 기법이다.

먼저, $f$의 함수 형태 또는 모양에 대해 가정한다. 예를 들어, 아주 단순하게 $f$는 $X$에 대해 선형적이라고 가정한다.
$f(X) = \beta_0 + \beta_1X_1+\beta_2X_2 + \cdots + \beta_pX_p$
이것은 선형모델이다. 일단 $f$가 선형이라는 가정이 있으면, $f$를 추정하는 문제는 크게 단순화된다.
완전히 임의의 $p$차원 함수 $f(X)$를 추정해야 하는 대신에, $p+1$개의 계수 $\beta_0, \beta_1, \cdots, \beta_p$ 만 추정하면 된다.
모델이 선택된 후 훈련 데이터를 사용하여 모델을 적합(fit)하거나 훈련시키는 절차가 필요하다.
선형모델의 경우, 파라미터 $\beta_0, \beta_1, \cdots, \beta_p$ 를 추정해야 한다. 즉, 다음을 만족하는 파라미터들의 값을 찾고자 한다.
$Y \approx \beta_0 + \beta_1X_1+\beta_2X_2 + \cdots + \beta_pX_p$
선형모델 적합에 가장 일반적으로 사용되는 기법은 최소제곱(least squares)이다.
하지만, 최소제곱은 선형모델을 적합하는 많은 가능한 방법들 중의 하나이다.

모수적 방법은 $f$를 추정하는 문제를 파라미터를 추정하는 문제로 간주한다. $f$에 대한 모수적 형태를 가정하는 것은 $f$를 추정하는 문제를 단순화한다. 왜냐하면, 선형모델의 파라미터를 추정하는 것이 전적으로 임의의 함수 $f$를 적합하는 것보다 일반적으로 훨씬 쉽기 때문이다. 모수적 방법의 잠재적인 단점은 선택하는 모델이 알려지지 않은 $f$의 형태와 보통은 맞지 않을 것이라는 것이다. 만약 선택된 모델이 $f$의 실제 모양과 너무 다르면 추정이 정확하지 않을 것이다. $f$에 대해 많은 다른 가능한 함수 형태를 적합할 수 있는 유연한 모델을 선택함으로써 이 문제를 해결하려고 시도할 수 있지만, 일반적으로 적합하는 모델이 유연할수록 추정해야 하는 파라미터 수도 많아진다. 이러한 좀 더 복잡한 모델들은 데이터에 대한 과적합(overfitting)을 초래할 수 있다. 과적합은 본질적으로 오차 또는 노이즈(noise)를 너무 면밀히 추적하는 것을 의미한다.

Income 자료에 대한 최소제곱에 의한 선형모델의 적합. 관측치들은 붉은색으로 표시되고 노란색 평면은 데이터에 대한 최소제곱적합을 나타낸다.
Income 자료에 대한 모수적 방법의 예를 보여준다. 아래와 같은 형태의 선형모델을 적합한다.
$\text{income} \approx \beta_0 + \beta_1 \times \text{education} + \beta_2 \times \text{seniority}$
실제 $f$ 는 선형적합으로는 포착되지 않는 곡선 부분이 있다. 하지만, 선형적합은 여전히 교육기간과 income 사이의 양의 상관관계뿐만 아니라 seniority와 income 사이의 약간 덜 긍정적인 상관관계를 합리적으로 포착하는것처럼 보인다. 이렇게 적은 수의 관측치로는 이것이 할 수 있는 최선일 수 있다.

비모수적 방법 (Non-parametric Methods)

비모수적 방법은 $f$의 함수 형태에 대해 명시적인 가정을 하지 않는다. 대신에 너무 거칠거나 왔다갔다 하지 않으면서 데이터 포인트들에 가능하면 가까워지는 $f$의 추정을 얻으려고 한다. 이러한 접근법은 모수적 방법에 비해 주요한 장점이 있을 수 있다. 즉, $f$의 함수 형태에 대한 가정을 하지 않아도 되므로 더 넓은 범위의 $f$ 형태에 정확하게 적합될 가능성이 있다.
어떠한 모수적 방법이라도 $f$를 추정하는 데 사용된 함수 형태가 실제 $f$와 많이 다를 수 있으며, 이 경우 결과 모델은 데이터에 잘 적합되지 않을 것이다. 이에 반해, 비모수적 방법은 $f$의 형태에 대한 어떠한 가정도 하지 않기 때문에 이러한 위험을 완전히 회피한다. 하지만, 비모수적 방법은 중요한 단점이 있다. 이 방법은 $f$를 추정하는 문제를 작은 수의 파라미터 추정 문제로 축소하지 않으므로, $f$에 대한 정확한 추정을 얻기 위해서는 아주 많은 수의 관측치가 필요하다.

Income 자료를 적합하는 비모수적 방법의 한 예
박판 스플라인(thin-plate spline)이 $f$를 추정하는데 사용된다.
이 기법은 $f$에 대해 어떠한 미리 지정된 모델을 고려하지 않는다.

박판 스플라인을 적합하기 위해서는 평활정도를 선택해야 한다. (유연성과 관계있음)
위의 그림은 거친적합을 초래하는 평활정도가 낮은 경우를 보여준다.
오버피팅의 한 예, 오차가 없다.