Prerequisites: Numerator Layout of Matrix Calculus

Linear Model

어느 확률변수 이 결합확률분포 를 따른다고 하자. 이제 이로부터 개의 sample을 다음과 같이 독립적으로 추출했다고 하자.

이때 우리는 다음과 같은 선형 모델링을 생각할 수 있다.

즉, 각각의 sample에 대해서는 다음과 같다.

이제 라고 하고 , 를 다음과 같이 정의하자. (이러한 를 design matrix 라고도 한다.)

이제 앞선 식 (1)은 다음과 같이 적을 수 있다.

Interpretation of

의 각 column은 다음과 같이 구성되어 있다.

따라서 어느 vector space에 대해 각 standard basis가 하나의 sample을 의미하고, 각 vector가 feature 를 사용한 sample의 representation을 의미한다고 하면 의 column space는 모든 sample에 대한 known representation의 linear interpolation을 의미한다.

한편 역시 이와 같은 vector space에 속하고, 따라서 는 sample에 알려지지 않은 어떤 feature를 사용한 데이터의 representation 이라고 할 수 있다.

Least Square Method

이제 우리는 다음과 같은 loss function을 통해 를 근사할 수 있다. 이때 번째 행을 의미한다.

이제 의 극점을 찾기 위해 미분하면 다음을 얻는다.

이제 Hessian이 positive definite이면 가 gradient가 0인 지점에서 극소값을 가진다. 그런데 만약 의 column vector가 linearly independent 하다면 는 positive definite이다. 그 이유는 다음과 같다.

먼저,

이고 의 column이 linearly independent 함으로 은 오직 trivial solution 만을 가진다. 따라서

이므로 는 positive definite이다.

앞선 해석을 고려하면 의 column이 linearly independent하다는 것은 서로 다른 feature에 대한 data representation이 데이터의 서로 다른 특성을 잘 포착한다는 것이다. 일반적으로 이고 각 feature가 충분히 representative 하다면 우리는 의 column이 linearly independent 하다고 가정할 수 있다.

이 가정으로부터 의 극솟값을 구하기 위해 gradient가 0 이라고 두면 다음과 같이 된다.

이러한 가 유일하게 정의되기 때문에 이는 RSS를 통한 optimization에 대한 global minimun 이다.

Note on Orthogonal Projection

의 column이 linearly independent 할 때 벡터 로부터 로의 orthogonal projection은 다음과 같이 정의된다.

이때 다음이 성립한다.

앞선 해석을 고려하면 RSS는 새로운 data representation 를 알려진 data representation space 로 사영시키는 과정이라고 할 수 있다.

References

(1) Trevor Hastie et al, The Elements of Statistical Learning 2ed.