다중선형회귀

다중선형회귀

단순선형회귀는 단일 설명변수를 기반으로 반응변수를 예측하는 유용한 기법이다. 하지만 실제로는 보통 하나보다 많은 설명변수가 관련된다. 예를 들어, Advertising 자료에서 판매량과 TV 광고의 상관관계를 조사하였다. 광고자료에는 또한 라디오와 신문광고에 지출에 대한 데이터도 있으며, 이들 두 매체가 판매량과 상관성이 있는지 알고 싶을 수 있다. 이러한 두 개의 추가적인 설명변수를 포함하기 위해 광고자료에 대한 분석을 어떻게 확장할 수 있을까?

한 가지 방법은 설명변수로 다른 광고 매체를 사용하는 세 개의 단순선형회귀를 사용하는 것이다.
예를 들어, 라디오 광고에 지출에 따른 판매량을 예측하는 데 단순선형회귀를 사용할 수 있다.
하지만, 각 설명변수에 다른 단순선형회귀모델을 사용하는 것은 만족할만한 방식이 아니다.

우선, 주어진 세 광고 매체의 예산 수준에 대해 어떻게 판매량을 예측하는지 명확하지 않다. 왜냐하면 서로 다른 광고 매체의 예산은 다른 회귀방정식에 연관되어 있기 때문이다.
두 번째, 세 회귀방정식의 각각은 회귀계수를 추정하는 데 다른 두 매체를 고려하지 않는다. 뒤에서 보겠지만, 만약 매체의 예산이 자료의 200개 마켓에서 서로 상관되어 있으면 판매량에 미치는 개별 광고매체의 영향에 대한 추정이 상당히 잘못된 것일 수 있다. 각 설명변수에 다른 단순선형회귀모델을 사용하는 대신에 단순선형회귀모델을 확장하여 복수의 설명변수들을 직접 수용할 수 있게 하는 것이 더 나은 접근방법이다. 이것은 하나의 모델에서 각 설명변수에 다른 기울기 계수를 할당하면 된다. 서로 다른 설명변수가 $p$ 개 있다고 해보자. 그러면 다중선형회귀모델은 다음 형태를 가진다.

여기서 $X_j$는 $j$ 번째 설명변수를 나타내고 $\beta_j$ 는 $j$ 번째 설명변수와 반응변수 사이의 연관성을 수량화한다. $\beta_j$ 는 다른 설명변수들은 변동되지 않을 때 $X_j$ 의 한 유닛 증가가 $Y$ 에 미치는 평균 효과로 해석된다.

3.2.1 회귀계수의 추정

단순선형회귀에서와 같이 회귀계수 $\beta_0, \beta_1, \cdots, \beta_p$ 는 알려지지 않은 값이며 추정되어야 한다.
주어진 추정값 $\hat{\beta_0}, \hat{\beta_1}, \cdots, \hat{\beta_p}$ 에 대해 예측은 다음 식을 사용하여 이루어질 수 있다.

파라미터들은 단순선형회귀에서 살펴보았던 것과 동일한 최소제곱법을 사용하여 추정할 수 있다. $\beta_0, \beta_1, \cdots, \beta_p$ 는 잔차제곱합 (sum of squared residuals)을 최소화하도록 선택된다.

위의 식을 최소화하는 값 $\hat{\beta_0}, \hat{\beta_1}, \cdots, \hat{\beta_p}$ 는 다중최소제곱회귀계수의 추정값이다. 단순선형회귀 추정값과는 달리 다중선형회귀추정값은 다소 복잡한 형태를 가지며 가장 쉬운 표현방식은 행렬대수를 사용하는 것이다.

  • 위의 그림은 $p = 2$ 개의 설명변수를 가진 자료에 최소제곱적합을 적용한 예를 보여준다.

  • 위의 표는 Advertising 자료에서 TV, 라디오, 신문 광고예산을 사용하여 제품 판매량을 예측할 때의 다중회귀계수 추정값을 보여준다.

표의 결과를 해석해 보면, 주어진 TV 및 신문 광고에 대해 추가로 1,000 달러를 라디오 광고에 지출하면 대략 189 유닛의 판매량 증가를 이룰 수 있다. 여기서의 계수 추정값을 다중선형회귀의 표와 아래의 단순선형회귀의 표와 비교해보면

TV와 radio에 대한 다중회귀계수 추정값들은 단순선형회귀의 계수추정값들과 아주 유사하다. 하지만 newspaper에 대한 단순선형회귀 추정값은 영과 큰 차이가 있지만 다중회귀모델의 newspaper에 대한 계수 추정값은 영에 가깝고 대응하는 $p-$ 값은 0.86으로 더 이상 유의하지 않다. 이것은 단순회귀계수와 다중회귀계수는 상당히 다를 수 있다는 것을 보여준다.

이러한 차이는 단순회귀의 경우 기울기 항이 TV와 radio 같은 다른 설명변수의 고려없이 신문광고 지출의 1,000 달러 증가에 대한 평균 효과를 나타내기 때문에 발생된다. 반면에 다중회귀의 경우 newspaper에 대한 계수는 TV와 radio 광고 지출은 변하지 않을 때 신문광고 지출의 1,000 달러 증가에 대한 평균 효과를 나타낸다.

단순선형회귀는 sales와 newspaper 사이에 상관관계가 있음을 나타내는데 다중회귀는 그 반대 결과를 보이는 것이 이치에 맞는가? 사실은 충분히 그럴 수 있다.

위의 표에 나타낸 세 설명변수와 반응변수에 대한 상관행렬을 고려해 보자. radio와 newspaper의 상관성은 0.35이다. 이것은 라디오 광고에 지출을 많이 하는 마켓일수록 신문 광고에도 더 많이 지출하는 경향이 있다는 것을 보여준다. 다중회귀 결과가 맞고, 신문 광고가 판매량에 미치는 직접적 영향은 없지만 라디오 광고는 판매량을 증가시킨다고 해보자. 그러면 라디오 광고에 더 많이 지출하는 마켓에서의 판매량이 더 높을 것이고, 상관행렬이 보여주듯이 그러한 마켓에서는 신문 광고에도 더 많이 지출하는 경향이 있다. 그러므로, 비록 신문광고가 실질적으로는 판매량에 아무 영향을 주지 않더라도 sales와 newspaper 사이의 관계만을 검사하는 단순선형회귀에서는 newspaper 값이 클수록 sales가 높게 나타나는 상관성을 보일 것이다. 따라서 신문광고에 의한 판매량은 실제로는 라디오 광고에 의한 것이며 신문은 라디오가 판매에 미치는 효과를 가져가는 것이다.

이러한 약간은 직관에 어긋나는 결과가 실제로 많은 경우에 발생한다. 요점을 보여주기 위해 터무니없는 예를 하나 고려해보자. 특정기간 동안 어떤 해변에서 아이스크림 판매에 대한 상어 공격의 회귀는 판매량과 신문광고 사이에서 보인 것과 유사한 상관관계가 있음을 보일 것이다. 실제로 기온이 올라가면 더 많은 사람이 해변을 방문하게 되고, 그리하여 아이스크림 판매가 높아지고 상어에 의한 공격횟수도 늘어난다. 아이스크림 판매와 기온에 대한 상어 공격의 다중회귀는 직관적으로 알 수 있듯이 기온을 조정하고 나면 아이스크림이란 설명변수는 더 이상 유의하지 않다는 것을 보여준다.

Share