이곳에서는 Bayes optimal predictor에 대해 살펴본다.
Bayes Optimal Predictor
자료 가 확률분포 를 따르고 가 이산확률변수라 하자. 이때 의 함수 관계를 예측하는 문제를 고려하자. 이는 이진 분류 문제로 이때 최적해는 다음과 같은 함수임이 알려져 있다.
가 최적해라는 것은 다른 함수 에 대해 다음이 항상 성립한다는 것을 의미한다. (a.k.a. )
이와 같은 를 Bayes optimal predictor 라고 한다. 의 정의는 다음과도 동치이다.
Proof of Bayes Optimal Predictor’s Optimality
이곳에서는 가 이산 확률 변수인 경우만을 증명한다.
일반성을 잃지 않고 와 가 단 하나의 지점 에서만 다르다고 가정하고, 이때 이라고 하자. 이제 다음이 성립한다. (에 대해서도 동일하게 성립한다.)
따라서 와 의 loss의 차이는 의 지점에서 결정된다는 사실을 알 수 있다. 가정에 의해 그 값은 각각,
과 같이 주어진다. 이제,
이고 는 항상 더 확률이 높은 쪽을 선택함으로 부등호는 아래와 같다.
따라서 우리는 의 loss가 항상 보다 작거나 같음을 알 수 있다.
위의 기댓값 을 조건부 기댓값을 사용해 전개해도 같은 결과를 얻을 수 있다.
References
(1) Shai Shalev-Shwartz, Shai Ben-David, Understanding Machine Learning, 22-30pp.