Home

다중선형회귀

다중선형회귀단순선형회귀는 단일 설명변수를 기반으로 반응변수를 예측하는 유용한 기법이다. 하지만 실제로는 보통 하나보다 많은 설명변수가 관련된다. 예를 들어, Advertising 자료에서 판매량과 TV 광고의 상관관계를 조사하였다. 광고자료에는 또한 라디오와 신문광고에 지출에 대한 데이터도 있으며, 이들 두 매체가 판매량과 상관성이 있는지 알고 싶을 수 있

모델의 정확도 평가

귀무가설을 기각하고 대립가설을 채택했다면, 모델이 데이터에 적합한 정도를 수량화 하고자 할 것이다.선형회귀적합의 질(quality)은 보통 잔차표준오차(RSE)와 $R^2$ 통계량을 사용하여 평가한다. Advertising 자료의 TV 광고예산에 대한 판매량의 회귀에서 최소제곱모델에 대한 추가 정보. 잔차표준오차 (RSE)$Y = \beta_0 + \

ubuntu virtualbox 용량 늘리기

ubuntu에서 virtualbox로 window를 쓰고 있다.window를 쓰는 와중에 하드디스크 용량이 부족하여 용량을 늘리고 싶어 virtualbox 설정을 이것저것 만져보았지만virtualbox 내의 설정 부분에서는 불가능하다는 것을 알았다. 1VBoxManage modifyhd window10.vdi --resize 60000 다음과 같은 커맨드

계수 추정값의 정확도 평가

$X$와 $Y$의 실제(true) 선형관계는 어떤 알려지지 않은 함수 $f$에 대해 $Y = f(x) + \epsilon$의 형태를 가지며, $\epsilon$은 평균이 영인 랜덤오차항이다. 만약 $f$가 선형함수로 근사된다면 이 관계를 다음과 같이 나타낼 수 있다. Y = \beta_0 + \beta_1X + \epsilon여기서, $\beta_0$는

선형회귀

3. 선형회귀선형회귀에서 답을 찾아봐야하는 몇 가지 중요한 질문들 광고예산과 판매 사이에 상관관계가 있는가? 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가? 어느 매체가 판매에 기여하는가? 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가? 미래의 판매에 대해 얼마나 정확하게 예측할 수 있는가? 상관관계는 선형인가? 광고 매체 사이에

편향-분산 절충

2.2.2 편향-분산 절충검정 MSE 곡선이 $U$ 모양을 보이는 것은 통계학습방법의 두 가지 상충되는 성질 때문이다.주어진 값($x_0$)에 대한 기대(expected) 검정 MSE는 항상 세 가지의 기본적 수량인 $\hat{f}(x_0)$의 분산, $\hat{f}(x_0)$의 제곱편향, 그리고 오차항 $\epsilon$의 분산의 합으로 분해된다. E\

모델의 정확도 평가

2.2 모델의 정확도 평가통계 분야에서 가능한 모든 자료에 대해 어떤 한 방법이 다른 방법들보다 지배적으로 더 나은 경우는 없다.그러므로 주어진 자료에 대해 최고의 기법을 선택하는 것이 실제로 통계학습을 수행하는 데 있어서 가장 어려운 부분 중의 하나이다. 2.2.1 적합의 품질 측정주어진 자료에 대한 통계학습방법의 성능을 평가하기 위해서는 이 방법에 의한

예측 정확도와 모델 해석력 사이의 절충 (Trade-Off)

2.1.3 예측 정확도와 모델 해석력 사이의 절충 (Trade-Off)좀 더 제한적인 모델을 선호할 수 있는 몇 가지 이유가 있다.만약 주 관심사가 추론이면, 제한적인 모델이 훨씬 더 해석하기 쉽다.예를 들어, 추론이 목적인 경우, 선형 모델은 $Y$와 $X_1, X_2, \cdots, X_p$ 사이의 상관관계를 이해하는 것이 아주 쉽기 때문에 좋은 선택일

어떻게 $f$ 를 추정하는가?

2.1.2 어떻게 $f$ 를 추정하는가?우리의 목적은 통계학습방법을 훈련 데이터에 적용하여 알려지지 않은 함수 $f$를 추정하는 것이다.다시 말하면, 임의의 관측치 $(X, Y)$ 에 대해 $Y \approx \hat{f}(X)$ 을 만족하는 함수 $f$를 찾고자 한다.넓게 얘기하면, 이 일을 위한 대부분의 통계학습방법들은 모수적(parametric) 또는

통계학습이란?

ISLR (Introduction to Statistical Learning)Chapter 2. 통계학습2.1 통계학습이란?Advertising 자료는 200개의 다른 시장에서 제품의 sales(판매 수치)와 각 시장별로 그 제품에 대한 광고예산으로 구성되어 있다. 광고예산은 TV, radio, newspaper 에 대한 것이다. 각 그래프는 각 변수에