어떻게 $f$ 를 추정하는가?

2.1.2 어떻게 $f$ 를 추정하는가?

우리의 목적은 통계학습방법을 훈련 데이터에 적용하여 알려지지 않은 함수 $f$를 추정하는 것이다.
다시 말하면, 임의의 관측치 $(X, Y)$ 에 대해 $Y \approx \hat{f}(X)$ 을 만족하는 함수 $f$를 찾고자 한다.
넓게 얘기하면, 이 일을 위한 대부분의 통계학습방법들은 모수적(parametric) 또는 비모수적(non-parametric) 으로 특징지을 수 있다.

모수적 방법 (Parametric Methods)

모수적 방법은 2단계로 된 모델 기반의 기법이다.

  1. 먼저, $f$의 함수 형태 또는 모양에 대해 가정한다. 예를 들어, 아주 단순하게 $f$는 $X$에 대해 선형적이라고 가정한다.

    이것은 선형모델이다. 일단 $f$가 선형이라는 가정이 있으면, $f$를 추정하는 문제는 크게 단순화된다.
    완전히 임의의 $p$차원 함수 $f(X)$를 추정해야 하는 대신에, $p+1$개의 계수 $\beta_0, \beta_1, \cdots, \beta_p$ 만 추정하면 된다.

  2. 모델이 선택된 후 훈련 데이터를 사용하여 모델을 적합(fit)하거나 훈련시키는 절차가 필요하다.
    선형모델의 경우, 파라미터 $\beta_0, \beta_1, \cdots, \beta_p$ 를 추정해야 한다. 즉, 다음을 만족하는 파라미터들의 값을 찾고자 한다.

    선형모델 적합에 가장 일반적으로 사용되는 기법은 최소제곱(least squares)이다.
    하지만, 최소제곱은 선형모델을 적합하는 많은 가능한 방법들 중의 하나이다.

모수적 방법은 $f$를 추정하는 문제를 파라미터를 추정하는 문제로 간주한다. $f$에 대한 모수적 형태를 가정하는 것은 $f$를 추정하는 문제를 단순화한다. 왜냐하면, 선형모델의 파라미터를 추정하는 것이 전적으로 임의의 함수 $f$를 적합하는 것보다 일반적으로 훨씬 쉽기 때문이다. 모수적 방법의 잠재적인 단점은 선택하는 모델이 알려지지 않은 $f$의 형태와 보통은 맞지 않을 것이라는 것이다. 만약 선택된 모델이 $f$의 실제 모양과 너무 다르면 추정이 정확하지 않을 것이다. $f$에 대해 많은 다른 가능한 함수 형태를 적합할 수 있는 유연한 모델을 선택함으로써 이 문제를 해결하려고 시도할 수 있지만, 일반적으로 적합하는 모델이 유연할수록 추정해야 하는 파라미터 수도 많아진다. 이러한 좀 더 복잡한 모델들은 데이터에 대한 과적합(overfitting)을 초래할 수 있다. 과적합은 본질적으로 오차 또는 노이즈(noise)를 너무 면밀히 추적하는 것을 의미한다.

  • Income 자료에 대한 최소제곱에 의한 선형모델의 적합. 관측치들은 붉은색으로 표시되고 노란색 평면은 데이터에 대한 최소제곱적합을 나타낸다.

  • Income 자료에 대한 모수적 방법의 예를 보여준다. 아래와 같은 형태의 선형모델을 적합한다.

  • 실제 $f$ 는 선형적합으로는 포착되지 않는 곡선 부분이 있다. 하지만, 선형적합은 여전히 교육기간과 income 사이의 양의 상관관계뿐만 아니라 seniority와 income 사이의 약간 덜 긍정적인 상관관계를 합리적으로 포착하는것처럼 보인다. 이렇게 적은 수의 관측치로는 이것이 할 수 있는 최선일 수 있다.

비모수적 방법 (Non-parametric Methods)

비모수적 방법은 $f$의 함수 형태에 대해 명시적인 가정을 하지 않는다. 대신에 너무 거칠거나 왔다갔다 하지 않으면서 데이터 포인트들에 가능하면 가까워지는 $f$의 추정을 얻으려고 한다. 이러한 접근법은 모수적 방법에 비해 주요한 장점이 있을 수 있다. 즉, $f$의 함수 형태에 대한 가정을 하지 않아도 되므로 더 넓은 범위의 $f$ 형태에 정확하게 적합될 가능성이 있다.
어떠한 모수적 방법이라도 $f$를 추정하는 데 사용된 함수 형태가 실제 $f$와 많이 다를 수 있으며, 이 경우 결과 모델은 데이터에 잘 적합되지 않을 것이다. 이에 반해, 비모수적 방법은 $f$의 형태에 대한 어떠한 가정도 하지 않기 때문에 이러한 위험을 완전히 회피한다. 하지만, 비모수적 방법은 중요한 단점이 있다. 이 방법은 $f$를 추정하는 문제를 작은 수의 파라미터 추정 문제로 축소하지 않으므로, $f$에 대한 정확한 추정을 얻기 위해서는 아주 많은 수의 관측치가 필요하다.

  • Income 자료를 적합하는 비모수적 방법의 한 예
    박판 스플라인(thin-plate spline)이 $f$를 추정하는데 사용된다.
  • 이 기법은 $f$에 대해 어떠한 미리 지정된 모델을 고려하지 않는다.

  • 박판 스플라인을 적합하기 위해서는 평활정도를 선택해야 한다. (유연성과 관계있음)
  • 위의 그림은 거친적합을 초래하는 평활정도가 낮은 경우를 보여준다.
  • 오버피팅의 한 예, 오차가 없다.
Share