z 머신 러닝에서 확률
본문 바로가기

Math

머신 러닝에서 확률

728x90

Probability in ML

불확실성

혹시 머신러닝에서의 불확실성에 대해서 생각해보신 적 있으신가요?
머신러닝에 대해서 관심 있으신 분들은 아시겠지만, 머신러닝은 불확실성과 관련이 매우 깊습니다.
주로 불확실성에 대한 해결이 목적이고, 이 뿐만 아니라 불확실성을 도구로 이용할 수 도 있습니다.

목적으로서의 불확실성 : data, 도구로서의 불확실성 : Noise ..

확률

보통 확률을 보는 관점에는 두가지가 있습니다.

  • 빈도주의 관점
  • 베이지안 관점

빈도주의 관점

빈도주의 관점에서는 확률을 "상대적 빈도의 극한"으로 봅니다.
이는 관심있는 사건 발생 횟수/전체 시행 횟수에서 전체 시행 횟수를 극한으로 보냈을 때 비율을 확률로 본다는 뜻입니다.

$${
\lim_{n->\infty} n(E)\above 1ptn
}$$

위의 식에서 n 은 전체 시행 횟수고, 분자는 전체 시행 횟수에 대한 관심 있는 사건 발생 횟수 입니다.

베이지안 관점

베이지안 관점은 다양한 상황에 확률을 부여해서 믿음을 수량화 시키는 관점으로 확률을 부여합니다.
** 확률 = 믿음의 정도 ** 로 생각하시면 될 것 같습니다.
불확실성 측정의 도구

$${
P(H|D) = P(D|H)P(H) \above 1pt P(D)
}$$
위의 공식은 베이즈 정리 의 한 공식입니다.
\(P(H|D) \): 사후확률
\(P(D|H) \) : 가능도 (가설 H가 데이터 D를 지지할 가능성)
\(P(H) \) : 사전확률 (데이터 관찰 전 믿고 있는 정도)
\(P(D) \) : 증거 (확률의 크기를 지켜주는 정규화 용도)
H : 가설, D : 데이터

https://www.youtube.com/watch?v=ELSxxe6gMaQ 에서 좋은 예시가 있어서 이를 바탕으로 참고해서 설명 드리겠습니다.

HypoProb1
H1, H2, H3, H4 : 가설
위 가설에 대한 구역이 있다고 했을 때, 가설이 나눠진 영역 만큼 \(P(H)\)이 정해 지겠죠?
H1 에 대해서 생각해봅시다.

위 사진처럼 데이터 D가 있다고 했을 때,
\(P(H_{1}|D) = {P(D \bigcap H_{1}) \above 1pt P(D)} \) 라 할 수 있겠죠?
D가 주어졌을 때 H1이 나올 확률이라고 생각하면, 전체 D에 대해서 D와 H교집합이 등장할 확률과 같은 의미니까요.
베이즈 정리에 의해 \(P(D \bigcap H_{1})= P(D|H_{1})P(H_{1})\)이라 표현 할 수 있구요.
여기에서 가능도에 대한 의미를 파악해볼까요??
$${
P(D|H_{1})={P(H_{1}\cap D) \above 1pt P(H_{1})}
}$$
위 식에 대해 좀 고민을 해보시면, 사전 확률사후 확률 로 Update하는 역할을 함을 알 수 있습니다.

그리고 위를 토대로 베이즈 정리 자체에 대해 다시 고민해보면, 어떤 불확실한 상황도 수량화 시킴을 알 수 있습니다!

마지막으로, 머신러닝에서 자주 사용되는 형식대로 식을 바꿔보면,
$${P(H_{1}|D)\varpropto P(D|H_{1})P(H_{1})}$$
이런 형식으로 변환 할 수 있습니다.
P(D)는 단지 스케일을 조정해주는 역할이기 때문에, = 가 아닌 "비례한다" 라는 의미로 정의한다면 생략 가능합니다.

Review

베이지안 관점을 통한 머신러닝을 공부하기 시작했습니다. 공부 할 때 마다 제가 공부한 만큼 기록을 남기려고 합니다.
오늘 게시한 내용이 전체적인 부분을 공부하는데 알아야하는 내용이라 중요한 것 같습니다. 이 공부 한게 꼭 보람 있게 되기를 기대합니다 ㅜㅜ

728x90

'Math' 카테고리의 다른 글

확률 분포 (1)  (0) 2021.05.19
가우시안 분포와 확률  (0) 2021.05.19