선형회귀

3. 선형회귀

선형회귀에서 답을 찾아봐야하는 몇 가지 중요한 질문들

  1. 광고예산과 판매 사이에 상관관계가 있는가?
  2. 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가?
  3. 어느 매체가 판매에 기여하는가?
  4. 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가?
  5. 미래의 판매에 대해 얼마나 정확하게 예측할 수 있는가?
  6. 상관관계는 선형인가?
  7. 광고 매체 사이에 시너지 효과가 있는가?

회귀 분석의 표준 가정

  1. 오차항은 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
  2. 오차항의 평균 (기대값) 은 0이다.
  3. 수집된 데이터의 확률 분포는 정규분포를 이루고 있다.
  4. 독립변수 상호 간에는 상관관계가 없어야 한다.
  5. 시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.

3.1 단순 선형회귀

단순선형회귀는 매우 간단한 기법으로, 하나의 설명변수 $X$에 기초하여 양적 반응변수 $Y$를 예측한다.
이 기법은 $X$와 $Y$ 사이에 선형적 상관관계가 있다고 가정한다. 수학적으로 선형적인 상관관계는 다음과 같이 나타낼 수 있다.

위의 식은 $X$에 대한 $Y$의 회귀라고 한다. $\beta_0$와 $\beta_1$은 알려지지 않은 상수로, 선형모델의 절편(intercept)기울기를 나타내며 모델 계수 또는 파라미터로 알려져 있다. 훈련 데이터를 사용하여 모델 계수에 대한 추정치 $\hat{\beta_0}$와 $\hat{\beta_1}$ 을 구하면, $\hat{y}$를 다음과 같이 예측할 수 있다.

3.1.1 계수 추정

실제로 $\beta_0$과 $\beta_1$은 알려져 있지 않다. 그러므로 (3.1)의 식을 사용하여 예측하기 전에 데이터를 이용하여 계수를 추정해야 한다. 다음은 $X$와 $Y$ 측정값으로 구성된 $n$개의 관측치 쌍을 나타낸다고 하자.

여기서의 목적은 선형모델(3.1)이 이용가능한 데이터에 잘 적합되도록하는, 즉 $i = 1, \cdots, n$ 에 대해 $y_i \approx \hat{\beta_0} + \hat{\beta_1}x_i$ 가 되도록 하는 계수 추정값 $\hat{\beta_0}$와 $\hat{\beta_1}$을 얻는 것이다. 다시 말하면, 직선이 $n$ 개의 데이터 포인트에 가능한 한 가깝게 되도록 하는 절편과 기울기를 찾고자 한다. 가까움(closeness)을 측정하는 방법은 여러 가지가 있다. 하지만 가장 흔하게 사용되는 기법은 최소제곱 기준을 최소화 하는 것이다.

$X$의 $i$번째 값에 기초한 $Y$의 예측값을 $\hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_i$ 라고 하자. 그러면 $e_i = y_i - \hat{y_i}$는 $i$ 번째 잔차(residual)을 나타내며, 이것은 $i$ 번째 관측된 반응변수 값과 선형모델에 의해 예측된 $i$ 번째 반응변수 값 사이의 차이다.

잔차제곱합(residual sum of squares (RSS)) 은 다음과 같이 정의한다.

이것은 또한 아래와 같이 쓸 수 있다.

최소제곱법은 RSS를 최소화 하는 $\beta_0$와 $\beta_1$를 선택한다.
미적분을 사용하여 수식을 정리하면 다음을 얻을 수 있다.

  • $\hat{\beta_0} = 7.03$이고 $\hat{\beta_1} = 0.0475$ 이다.

    즉, 광고에 1천 달러를 더 사용하면 sales는 대략 47.5 유닛 늘어난다.
    Advertising 자료에서 TV 광고에 대한 sales의 회귀를 최소제곱으로 적합한 것이다. 적합은 오차제곱합을 최소로 함으로써 구해진다. 각 회색 선분은 오차를 나타내고 적합은 이 오차들의 제곱을 평균하여 절충한다. 이 값들은 명백히 RSS를 최소화 한다.

Share