z 가우시안 분포와 확률
본문 바로가기

Math

가우시안 분포와 확률

728x90

시작하기에 앞서..

몇일 전에 갑자기 학구열이 불타서 prml 책을 샀습니다.. 근데 이렇게 어려울 줄은 생각도 하지 못했네요 ㅜㅜ
이 책을 공부하는데 토대가 될 확률, 베이지안 관점에 대해 공부하려고 합니다.
포스팅 된 내용은 어느정도 prml 책에서 나옴을 알려드립니다.

가우시안 분포

N(x|μ,σ2)=1(2πσ2)12exp12σ2(xμ)2
가우시안에 대한 property

  • infinfN(x|μ,σ2)dx=1

  • N(x|μ,σ2)>0

  • E[x]=infinfN(x|μ)xdx=μ

  • E[x2]=infinfN(x|μ)x2dx=μ2+σ2

  • var[x]=E[x2]E[x]2=σ2

위 조건들 중 1, 2 조건을 보시면 보시면 어떤게 생각나시지 않나요? 네 바로 pdf의 꼴 임을 알 수 있습니다.
그리고 연속 변수로 이루어진 D차원 벡터 X에 대한 가우시안 분포를 생각해봅시다. (X는 데이터들 이라 생각하시면 됩니다.)

N(X|μ,Σ)=1(2π)D2|Σ|12exp12(xμ)TΣ1(xμ)

위의 식은 연속변수로 이루어진 D차원 벡터 X에 대한 가우시안 분포 식입니다.

Σ : 공분산, |Σ| : 행렬식

앞서 말했듯이 가우시안 분포는 pdf로 생각해도 괜찮겠죠??
그럼 가능도라고 생각을 해봅시다!

p(x|μ,σ2)=n=1NN(xn|μ,σ2)

xn : 관측 데이터. 관측 데이터는 서로 독립 관계라서 전체 데이터에 대한 확률은 곱을 통해 계산 가능합니다.

이 가우시안 식을 좀 더 계산하기 쉽게 로그를 씌워 봅시다!

lnp(x|μ,σ2)=12σ2n=1N(xnμ)2N2lnσ2N2ln(2π)

로그를 씌워주면 위처럼 정리가 됩니다.

12σ2n=1N(xnμ)2
이부분 어디서 본 적 있지 않으신가요?

MSE가 결국에는 확률적인 개념에서 유도되는 식입니다.
음 뒷부분에서 곡선피팅 중 한 부분에 대해 이야기 할까 하는데요, 위의 과정이 그대로 적용된다고 생각하시면 될 것 같습니다.

위에서 가능도를 저희가 p(x|μ,σ2)로 생각 했었죠??
그럼 이 가능도가 최대화 된 경우를 생각해봅시다.
μML=1Nn=1Nxn

σML2=1Nn=1N(xnμML)2

μML,σML2는 최대 가능도 해라고 불리며,

μML표본 평균, σML2표본 분산 이라고 합니다.

근데 알다시피 이 σ2는 모집단에 대해 근사하는 값이지 완전한 값은 아니라고 할 수 있습니다.
E[σML2]=N1Nσ2
표본이라서 위처럼 근사한 형태로 표현됩니다.
N(표본의 수)이 부족하면 Overfitting이 일어난다는 것이 당연한 이야기지만, 이렇게 확률적인 관점으로 이해를 할 수도 있습니다.

추가 !      최빈값 : 분포의 최댓값, 가우시안에서는 μ가 최빈값 입니다.

곡선 피팅

빈도적인 측면의 이야기 입니다

N개의 입력 값 x=(x1,x2,...,xN)T
표적 값 t=(t1,t2,...,tN)T

확률 분포를 통해 타깃 변수의 값에 대한 불확실성을 확인해봅시다!

x에 대한 t 값이 y(x,w)를 평균으로 갖는 가우시안 분포를 갖는다고 생각해봅시다 (w : model)
여기에서 β는 정밀도를 의미합니다. β1=σ2
p(t|x,w,β)=N(t|y(x,w),β1)

p(t|x,w,β)=n=1NN(tn|y(xn,w),β1)

이대로는 가능도 함수를 구하기 힘듭니다 ㅜㅜ 그러니 이전 방법처럼 로그를 씌워봅시다!

lnp(t|x,w,β)=β2n=1Ny(xn,w)tn2+N2lnβN2ln2π

β2n=1Ny(xn,w)tn2

위에서 언급했었던, 머신러닝에서의 진짜 MSE가 나왔습니다! 이는 가능도 함수를 최대화하기 위함입니다.

WML : 가능도 최대 (Maximum Likelihood)일 때 모델의 가중치

1βML=1Nn=1N(y(xn,wML)tn)2

: WML을 통해 구해지는 최적의 정밀도

위의 식들을 통해서 예측 분포를 표현할 수 있습니다!

p(t|x,wML,βML)=N(t|y(x,wML),βML1)

위처럼 "가능도"를 최대화 하는것을 MLE 라고 할 수 있습니다.

음 가능도 뿐만이 아니라 사전분포를 고려해서 사후분포를 최대화 할 수는 없을까요?
할 수 있습니다!
자세한 유도는 생략하겠습니다 ㅎㅎ
p(w|α)=N(w|0,α1I)
p(w|x,t,α,β)p(t|x,w,β)p(w|α)
w에 대한 사후분포 최대화 시키기위해 가우시안 분포 식에대해 정리해보면,
β2n=1Ny(xn,w)tn2+α2wTw
이처럼 유도 됩니다.

머신러닝에서 흔히 사용되는 Regularization과 동일한 식이네요.
웨이트에 규제를 준다 라는 뜻은 사전 확률을 고려해주겠다! 라는 뜻과 동일한 의미인가보네요


위의 내용들을 다 읽으셨다면 이 사진에 대해 한번 생각해보는 시간을 가져보시는 것도 괜찮을 것 같습니다 ㅎㅎ

Reivew

음 오늘 한 내용은, 이전에 머신러닝을 좀 공부했었던 저에게 좀 더 깊으면서 다른 관점에서 볼 수 있는 눈을 줬습니다. 흔히 말하는 weight decay 는 어떻게 작동하는지도 이해가 안된 상태에서 그냥 사용하기만 했는데, 관점을 조금 돌려보니 완전히 이해할 수 있게되는 계기였습니다.
loss function, 정규화와 같은 부분들을 좀 더 깊은 지식을 가지고 사용을 한다면 더 좋지 않을까 싶습니다.:)

혹시 틀린 부분이 있다면 꼭 지적해주세요!

728x90

'Math' 카테고리의 다른 글

확률 분포 (1)  (0) 2021.05.19
머신 러닝에서 확률  (0) 2021.05.19