z 확률 분포 (1)
본문 바로가기

Math

확률 분포 (1)

728x90

시작하면서..

여러 확률 분포를 공부하기 시작했는데 이번에는 베르누이 분포, 이항 분포 그리고 베타 분포에 대해서 알아보고자 합니다.

시작하기에 앞서 확률 분포가 목표로 하는 바를 설정해보겠습니다.

목표
밀도 추정 (Density Estimation) : 관찰 집합 x1, ... , xN이 주어졌을 때 확률 변수 x의 확률 분포 p(x)를 모델링 하는 것

이산 확률 변수의 이항분포와 다항분포, 연속확률 변수의 가우시안 분포 등은 매개변수적 분포 라고 불립니다. 이는 밀도 추정에 적용하기 위해서는 주어진 데이터 집합을 바탕으로 적절한 매개변수를 구해야하기 때문입니다.

베르누이 분포

둘 중 하나의 값을 갖는 확률 변수를 생각해 봅시다.
\(x\in {0,1}\)일 때 \(p(x=1|\mu) = \mu\) 이라면, 아래 두 식을 만족합니다.

  • \(0 \leq \mu \leq 1\)
  • \(p(x=0|\mu) = 1-\mu\)

정확하지는 않은 것 같지만 $${\mu}$$를 1이 나올 확률이라고 생각을 해도 괜찮을 것 같습니다.

그리고 이에 대해서 베르누이 분포를 생각할 수 있습니다.

$$
Bern(x|\mu) = \mu^{x}(1-\mu)^{1-x}
$$
베르누이 분포는 정규화 되어있으며, 기댓값과 분산은 아래와 같습니다.

  • \(E[x] = \mu\)
  • \(var[x] = \mu(1-\mu)\)

이제 이전 포스트들에서 했던 것 처럼 확률 변수 x가 아닌 어떤 관측된 데이터 집합 \(D={x_{1}, ... ,x_{N}}\)가 주어졌다고 생각해봅시다.
관측된 데이터들은 독립 관계이기 때문에,
$$
p(D|\mu) = \prod^N_{n=1}p(x_n|\mu) = \prod^N_{n=1}\mu^{x_n}(1-\mu)^{1-x_n}
$$
으로 표현 할 수 있습니다!
여기에서 우리는 오직 관측값만 고려하는 빈도적 관점으로 log를 취해보겠습니다.

$$
\ln p(D|\mu) = \sum^N_{n=1}{x_n\ln \mu + (1-x_n)\ln (1-\mu)}
$$

위는 충분 통계량 중 한 종류 입니다.

근데 한번 동전을 던지는 경우를 생각해봅시다.
위는 "오직 관찰값"에 의해서 결정됩니다. 물론 동전을 던져서 앞면이 나올 확률이 50%이지만, 3번 던졌을 때 3번 다 앞면이 나올 수도 있을 것입니다. 이 경우 최대 가능도에 따라 예측한다면 미래는 전부 앞면이 나오게 될 것입니다. 이는 상식적으로 말이 안되는데, 이는 후에 $${\mu}$$에 대한 사전분포를 바탕으로 더 나은 결과를 도출할 수 있습니다. 이 포스트의 후반에 다루겠습니다.

이항 분포

그러면 일단 x=1이 몇 번 나왔는지에 대한 분포를 살펴보도록 합시다.
동전을 N번 던졌을 때 m번 앞면이 나오는 것에 대한 분포를 이항 분포라고 합니다.
$$
Bin(m|N,\mu) = (^N_m)\mu^m(1-\mu)^{N-m}
$$

$$
(^N_m) \equiv {N! \above 1pt (N-m)!m!}
$$

이는 N개의 물체 중 m개의 물체를 선별하는 가짓수를 구한 것 입니다.

이항 분포의 평균과 분산은 아래와 같스빈다.

  • \(E[m] = \sum^{N}_{m}mBin(m|N,\mu) = N\mu\)
  • \(var[m] = \sum^{N}_{m}(m-E[m])^{2}Bin(m|N,\mu) = N\mu(1-\mu)\)

베타 분포

베르누이 분포나, 이항분포를 사용하면 앞에서 언급했듯이 관측된 데이터만 고려하기 때문에 과적합기 일어나기 쉽습니다.
이를 위해서 \(\mu\)에 대한 사전분포 \(p(\mu)\)를 도입해보겠습니다.

켤레성

베르누이 분포(가능도)를 살펴보면 가능도 함수가 \(\mu^{x}(1-\mu)^{1-x}\)의 형태를 가진다는 것을 알 수 있습니다. 여기에서 만약 사전분포 \(p(\mu)\)를 \(\mu\)의 거듭제곱과 \(1-\mu\)의 거듭제곱에 비례하는 형태로 설정한다면, 사후분포 역시 사전 분포와 같은 함수적 구조를 띌 것입니다. 이를 켤레성 이라고 합니다.

켤레성
가능도 함수에 비례하는 형태를 갖는 사전분포가 있다면, 사후분포는 사전 확률과 가능도 함수의 곱에 비례하기 때문에, 사전분포와 같은 함수적 형태를 띄는 성질

위를 바탕으로 사전분포 $${p(\mu)}$$를 베타분포로 설정하겠습니다.

$$
Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
$$

베타 분포의 기댓값과 분산은 아래와 같습니다.

  • \(\int^{1}_{0}Beta(\mu|a,b)d\mu = 1\)
  • \(E[\mu] = {a \above 1pt a+b}\)
  • \(var[\mu] = {ab \above 1pt (a+b)^{2}(a+b+1)}\)

여기에서 a, b는 파라미터 \(\mu\)를 조정하는 "하이퍼 파라미터"라고 합니다.

사후분포

사후분포가 아래 식과 같이 정의 되는데,
\(l = N-m\) 일 때
$$
p(\mu|m,l,a,b) \varpropto \mu^{\mu + a-1}(1-\mu)^{l+b-1}
$$


사전분포 \(Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)가 사후분포에 대해 종속성을 가지고 있음을 알 수 있습니다. (켤레성)

사전분포  \(Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)

가능도 \(Bin(m|N,\mu) = (^{N}_{m})\mu^m(1-\mu)^{N-m}\)

사후분포 \(p(\mu|m,l,a,b) = {\Gamma(m+a+b+l) \above 1pt \Gamma(m+a)\Gamma(l+b)}\mu^{\mu + a-1}(1-\mu)^{l+b-1}\)

사후분포에서 a,b는 x=1, x=0에 대한 유효 관찰수 라고 생각하면 됩니다.
x=1인 새로운 관측 값이 주어지면 a를 1 증가시키고 x=0인 새로운 관측 값이 주어지면 b를 1 증가시키면 됩니다.

우리가 데이터를 더 얻게되면 지금의 사후분포가 사전분포가 되고 새로운 데이터를 통해 새로운 사후분포를 만들어나가면 됩니다.

베이지안 관점에서는 이와 같은 과정이 자연스러움을 알 수 있습니다!
관측 데이터에 대해서만 빈도적인 접근을 하는 것이 아닌, \(\mu\)에 대해 불확실성(베타 분포)를 부여함으로써 불확실성을 고려해주게 됩니다.

728x90

'Math' 카테고리의 다른 글

가우시안 분포와 확률  (0) 2021.05.19
머신 러닝에서 확률  (0) 2021.05.19