Archive: 2019

선형회귀

3. 선형회귀선형회귀에서 답을 찾아봐야하는 몇 가지 중요한 질문들 광고예산과 판매 사이에 상관관계가 있는가? 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가? 어느 매체가 판매에 기여하는가? 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가? 미래의 판매에 대해 얼마나 정확하게 예측할 수 있는가? 상관관계는 선형인가? 광고 매체 사이에

편향-분산 절충

2.2.2 편향-분산 절충검정 MSE 곡선이 $U$ 모양을 보이는 것은 통계학습방법의 두 가지 상충되는 성질 때문이다.주어진 값($x_0$)에 대한 기대(expected) 검정 MSE는 항상 세 가지의 기본적 수량인 $\hat{f}(x_0)$의 분산, $\hat{f}(x_0)$의 제곱편향, 그리고 오차항 $\epsilon$의 분산의 합으로 분해된다. E\

모델의 정확도 평가

2.2 모델의 정확도 평가통계 분야에서 가능한 모든 자료에 대해 어떤 한 방법이 다른 방법들보다 지배적으로 더 나은 경우는 없다.그러므로 주어진 자료에 대해 최고의 기법을 선택하는 것이 실제로 통계학습을 수행하는 데 있어서 가장 어려운 부분 중의 하나이다. 2.2.1 적합의 품질 측정주어진 자료에 대한 통계학습방법의 성능을 평가하기 위해서는 이 방법에 의한

예측 정확도와 모델 해석력 사이의 절충 (Trade-Off)

2.1.3 예측 정확도와 모델 해석력 사이의 절충 (Trade-Off)좀 더 제한적인 모델을 선호할 수 있는 몇 가지 이유가 있다.만약 주 관심사가 추론이면, 제한적인 모델이 훨씬 더 해석하기 쉽다.예를 들어, 추론이 목적인 경우, 선형 모델은 $Y$와 $X_1, X_2, \cdots, X_p$ 사이의 상관관계를 이해하는 것이 아주 쉽기 때문에 좋은 선택일

어떻게 $f$ 를 추정하는가?

2.1.2 어떻게 $f$ 를 추정하는가?우리의 목적은 통계학습방법을 훈련 데이터에 적용하여 알려지지 않은 함수 $f$를 추정하는 것이다.다시 말하면, 임의의 관측치 $(X, Y)$ 에 대해 $Y \approx \hat{f}(X)$ 을 만족하는 함수 $f$를 찾고자 한다.넓게 얘기하면, 이 일을 위한 대부분의 통계학습방법들은 모수적(parametric) 또는

통계학습이란?

ISLR (Introduction to Statistical Learning)Chapter 2. 통계학습2.1 통계학습이란?Advertising 자료는 200개의 다른 시장에서 제품의 sales(판매 수치)와 각 시장별로 그 제품에 대한 광고예산으로 구성되어 있다. 광고예산은 TV, radio, newspaper 에 대한 것이다. 각 그래프는 각 변수에

python gc collect

python gc collect보통 파이썬은 레퍼런스 카운팅 방식으로 가비지 컬렉션을 수행해 메모리를 관리하고, 레퍼런스 카운팅을 사용했을 때 발생할 수 있는 순환 참조 상황을 별도의 가비지 컬렉터로 해결한다고 알고 있다. python에는 Garbage Collection이라는 것이 있기 때문에 C/C++ 처럼 메모리를 직접 할당/해제하는 수고를 하지 않아

python GIL

Python GILGlobal Interpreter Lock In CPython, the global interpreter lock, or GIL, is a mutex that protects access to python objects, preventing multiple threads from executing Python bytecodes at onc

프로세스와 스레드의 차이

프로세스와 스레드의 차이(Process vs Thread)프로세스(Process) 의미 컴퓨터에서 연속적으로 실행되고 있는 컴퓨터 프로그램 메모리에 올라와 실행되고 있는 프로그램의 인스턴스(독립적인 개체) 운영체제로부터 시스템 자원을 할당받는 작업의 단위 종종 스케줄링의 대상이 되는 작업(task)이라는 용어와 거의 같은 의미로 쓰인다. 할당받는 시스

동시성과 병렬성

동시성과 병렬성 (threading & multiprocessing, parmap) 사전지식 task (작업): 일의 단위라고 보면 된다. 1부터 100까지 더하는 것도 하나의 컴퓨팅 작업이며, 프로그램을 다운로드 하는 것도 하나의 작업이 될 수 있고, 프린트를 하는 것이나, 음악을 재생하는 것, 문서를 저장하는 것 등등이 모두 개별적인 서로 다른