Introduction to Linear Regression

Prerequisites: Numerator Layout of Matrix Calculus

Linear Model

어느 확률변수 $x \in R^{p}, y \in R$ 이 결합확률분포 $p_{x, y}$ 를 따른다고 하자. 이제 이로부터 $n$ 개의 sample을 다음과 같이 독립적으로 추출했다고 하자.

(x^{(1)}, y^{(1)}), ...., (x^{(n)}, y^{(n)}) \sim_{i . i . d} p_{x, y}

이때 우리는 다음과 같은 선형 모델링을 생각할 수 있다.

y \approx β_{0} + j = 1 \sum p β_{j} x_{j} (x = (x_{1} x_{2} ... x_{p})^{T})

즉, 각각의 sample에 대해서는 다음과 같다.

y^{(i)} \approx β_{0} + j = 1 \sum p β_{j} x_{j}^{(i)} = (β_{0} β_{1} ... β_{p}) (1 x^{(i)}) ... (1)

이제 $β = (β_{0} β_{1} ... β_{p})^{T} \in R^{p + 1}$ 라고 하고 $X$ , $Y$ 를 다음과 같이 정의하자. (이러한 $X$ 를 design matrix 라고도 한다.)

X = 1 (x^{(1)})^{T} 2 (x^{(2)})^{T} ... n (x^{(n)})^{T} \in R^{n \times (p + 1)} Y = (y_{1} y_{2} ... y_{n})^{T} \in R^{n}

이제 앞선 식 (1)은 다음과 같이 적을 수 있다.

Y \approx X β

Interpretation of $co l X$

$X$ 의 각 column은 다음과 같이 구성되어 있다.

x_{f}^{(1)} x_{f}^{(2)} ⋮ x_{f}^{(n)}

따라서 어느 vector space에 대해 각 standard basis가 하나의 sample을 의미하고, 각 vector가 feature $f$ 를 사용한 sample의 representation을 의미한다고 하면 $X$ 의 column space는 모든 sample에 대한 known representation의 linear interpolation을 의미한다.

한편 $Y$ 역시 이와 같은 vector space에 속하고, 따라서 $Y$ 는 sample에 알려지지 않은 어떤 feature를 사용한 데이터의 representation 이라고 할 수 있다.

Least Square Method

이제 우리는 다음과 같은 loss function을 통해 $β$ 를 근사할 수 있다. 이때 $[X]_{i}$ 는 $X$ 의 $i$ 번째 행을 의미한다.

R S S (β) = (Y - X β)^{T} (Y - X β) = i = 1 \sum n (y^{(i)} - [X]_{i} β)^{2}

\hat{β} = a r g mi n_{β} R S S (β)

이제 $R S S (β)$ 의 극점을 찾기 위해 미분하면 다음을 얻는다.

\frac{\partial}{\partial β} R S S (β) = (I^{T} + I) (Y - X β)^{T} (- X) = - 2 X^{T} (Y - X β)

\frac{\partial}{\partial β} \frac{\partial}{\partial β ^{T}} R S S (β) = \frac{\partial}{\partial β} (- 2 X^{T} (Y - X β))^{T} = \frac{\partial}{\partial β} (2 X^{T} X β))^{T} = \frac{\partial}{\partial β} 2 β^{T} X^{T} X = 2 X^{T} X

이제 Hessian이 positive definite이면 $R S S (β)$ 가 gradient가 0인 지점에서 극소값을 가진다. 그런데 만약 $X$ 의 column vector가 linearly independent 하다면 $X^{T} X$ 는 positive definite이다. 그 이유는 다음과 같다.

먼저,

v^{T} X^{T} X v = (X v)^{T} X v = ∣ X v ∣^{2} \geq 0

이고 $X$ 의 column이 linearly independent 함으로 $X v = 0$ 은 오직 trivial solution $v = 0$ 만을 가진다. 따라서

v \neq = 0 \to v X^{T} X v > 0

이므로 $X^{T} X$ 는 positive definite이다.

앞선 해석을 고려하면 $X$ 의 column이 linearly independent하다는 것은 서로 다른 feature에 대한 data representation이 데이터의 서로 다른 특성을 잘 포착한다는 것이다. 일반적으로 $p ≪ n$ 이고 각 feature가 충분히 representative 하다면 우리는 $X$ 의 column이 linearly independent 하다고 가정할 수 있다.

이 가정으로부터 $β$ 의 극솟값을 구하기 위해 gradient가 0 이라고 두면 다음과 같이 된다.

X^{T} (Y - X \hat{β}) = 0 \to X^{T} Y = X^{T} X \hat{β} \to (X^{T} X)^{- 1} X^{T} Y = \hat{β}

이러한 $\hat{β}$ 가 유일하게 정의되기 때문에 이는 RSS를 통한 optimization에 대한 global minimun 이다.

Note on Orthogonal Projection

$X$ 의 column이 linearly independent 할 때 벡터 $Y$ 로부터 $co l X$ 로의 orthogonal projection은 다음과 같이 정의된다.

p r o j_{co l X} Y = X (X^{T} X)^{- 1} X^{T} Y

이때 다음이 성립한다.

p r o j_{co l X} Y = X \hat{β}

\Rightarrow X (X^{T} X)^{- 1} X^{T} Y = X \hat{β}

\Rightarrow X^{T} X (X^{T} X)^{- 1} X^{T} Y = X^{T} X \hat{β}

\Rightarrow X^{T} Y = X^{T} X \hat{β}

\Rightarrow (X^{T} X)^{- 1} X^{T} Y = \hat{β}

앞선 해석을 고려하면 RSS는 새로운 data representation $Y$ 를 알려진 data representation space $co l X$ 로 사영시키는 과정이라고 할 수 있다.

References

(1) Trevor Hastie et al, The Elements of Statistical Learning 2ed.

Helix of Computing

Explorer

Introduction to Linear Regression

Linear Model

Interpretation of $co l X$

Least Square Method

Note on Orthogonal Projection

References

Graph View

Table of Contents

Helix of Computing

Explorer

Introduction to Linear Regression

Linear Model

Interpretation of colX

Least Square Method

Note on Orthogonal Projection

References

Graph View

Table of Contents

Interpretation of $co l X$