시작하면서..
여러 확률 분포를 공부하기 시작했는데 이번에는 베르누이 분포, 이항 분포 그리고 베타 분포에 대해서 알아보고자 합니다.
시작하기에 앞서 확률 분포가 목표로 하는 바를 설정해보겠습니다.
목표
밀도 추정 (Density Estimation) : 관찰 집합 x1, ... , xN이 주어졌을 때 확률 변수 x의 확률 분포 p(x)를 모델링 하는 것
이산 확률 변수의 이항분포와 다항분포, 연속확률 변수의 가우시안 분포 등은 매개변수적 분포 라고 불립니다. 이는 밀도 추정에 적용하기 위해서는 주어진 데이터 집합을 바탕으로 적절한 매개변수를 구해야하기 때문입니다.
베르누이 분포
둘 중 하나의 값을 갖는 확률 변수를 생각해 봅시다.
\(x\in {0,1}\)일 때 \(p(x=1|\mu) = \mu\) 이라면, 아래 두 식을 만족합니다.
- \(0 \leq \mu \leq 1\)
- \(p(x=0|\mu) = 1-\mu\)
정확하지는 않은 것 같지만 $${\mu}$$를 1이 나올 확률이라고 생각을 해도 괜찮을 것 같습니다.
그리고 이에 대해서 베르누이 분포를 생각할 수 있습니다.
$$
Bern(x|\mu) = \mu^{x}(1-\mu)^{1-x}
$$
베르누이 분포는 정규화 되어있으며, 기댓값과 분산은 아래와 같습니다.
- \(E[x] = \mu\)
- \(var[x] = \mu(1-\mu)\)
이제 이전 포스트들에서 했던 것 처럼 확률 변수 x가 아닌 어떤 관측된 데이터 집합 \(D={x_{1}, ... ,x_{N}}\)가 주어졌다고 생각해봅시다.
관측된 데이터들은 독립 관계이기 때문에,
$$
p(D|\mu) = \prod^N_{n=1}p(x_n|\mu) = \prod^N_{n=1}\mu^{x_n}(1-\mu)^{1-x_n}
$$
으로 표현 할 수 있습니다!
여기에서 우리는 오직 관측값만 고려하는 빈도적 관점으로 log를 취해보겠습니다.
$$
\ln p(D|\mu) = \sum^N_{n=1}{x_n\ln \mu + (1-x_n)\ln (1-\mu)}
$$
위는 충분 통계량 중 한 종류 입니다.
근데 한번 동전을 던지는 경우를 생각해봅시다.
위는 "오직 관찰값"에 의해서 결정됩니다. 물론 동전을 던져서 앞면이 나올 확률이 50%이지만, 3번 던졌을 때 3번 다 앞면이 나올 수도 있을 것입니다. 이 경우 최대 가능도에 따라 예측한다면 미래는 전부 앞면이 나오게 될 것입니다. 이는 상식적으로 말이 안되는데, 이는 후에 $${\mu}$$에 대한 사전분포를 바탕으로 더 나은 결과를 도출할 수 있습니다. 이 포스트의 후반에 다루겠습니다.
이항 분포
그러면 일단 x=1이 몇 번 나왔는지에 대한 분포를 살펴보도록 합시다.
동전을 N번 던졌을 때 m번 앞면이 나오는 것에 대한 분포를 이항 분포라고 합니다.
$$
Bin(m|N,\mu) = (^N_m)\mu^m(1-\mu)^{N-m}
$$
$$
(^N_m) \equiv {N! \above 1pt (N-m)!m!}
$$
이는 N개의 물체 중 m개의 물체를 선별하는 가짓수를 구한 것 입니다.
이항 분포의 평균과 분산은 아래와 같스빈다.
- \(E[m] = \sum^{N}_{m}mBin(m|N,\mu) = N\mu\)
- \(var[m] = \sum^{N}_{m}(m-E[m])^{2}Bin(m|N,\mu) = N\mu(1-\mu)\)
베타 분포
베르누이 분포나, 이항분포를 사용하면 앞에서 언급했듯이 관측된 데이터만 고려하기 때문에 과적합기 일어나기 쉽습니다.
이를 위해서 \(\mu\)에 대한 사전분포 \(p(\mu)\)를 도입해보겠습니다.
켤레성
베르누이 분포(가능도)를 살펴보면 가능도 함수가 \(\mu^{x}(1-\mu)^{1-x}\)의 형태를 가진다는 것을 알 수 있습니다. 여기에서 만약 사전분포 \(p(\mu)\)를 \(\mu\)의 거듭제곱과 \(1-\mu\)의 거듭제곱에 비례하는 형태로 설정한다면, 사후분포 역시 사전 분포와 같은 함수적 구조를 띌 것입니다. 이를 켤레성 이라고 합니다.
켤레성
가능도 함수에 비례하는 형태를 갖는 사전분포가 있다면, 사후분포는 사전 확률과 가능도 함수의 곱에 비례하기 때문에, 사전분포와 같은 함수적 형태를 띄는 성질
위를 바탕으로 사전분포 $${p(\mu)}$$를 베타분포로 설정하겠습니다.
$$
Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
$$
베타 분포의 기댓값과 분산은 아래와 같습니다.
- \(\int^{1}_{0}Beta(\mu|a,b)d\mu = 1\)
- \(E[\mu] = {a \above 1pt a+b}\)
- \(var[\mu] = {ab \above 1pt (a+b)^{2}(a+b+1)}\)
여기에서 a, b는 파라미터 \(\mu\)를 조정하는 "하이퍼 파라미터"라고 합니다.
사후분포
사후분포가 아래 식과 같이 정의 되는데,
\(l = N-m\) 일 때
$$
p(\mu|m,l,a,b) \varpropto \mu^{\mu + a-1}(1-\mu)^{l+b-1}
$$
사전분포 \(Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)가 사후분포에 대해 종속성을 가지고 있음을 알 수 있습니다. (켤레성)
사전분포 \(Beta(\mu|a,b) = {\Gamma(a+b) \above 1pt \Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)
가능도 \(Bin(m|N,\mu) = (^{N}_{m})\mu^m(1-\mu)^{N-m}\)
사후분포 \(p(\mu|m,l,a,b) = {\Gamma(m+a+b+l) \above 1pt \Gamma(m+a)\Gamma(l+b)}\mu^{\mu + a-1}(1-\mu)^{l+b-1}\)
사후분포에서 a,b는 x=1, x=0에 대한 유효 관찰수 라고 생각하면 됩니다.
x=1인 새로운 관측 값이 주어지면 a를 1 증가시키고 x=0인 새로운 관측 값이 주어지면 b를 1 증가시키면 됩니다.
우리가 데이터를 더 얻게되면 지금의 사후분포가 사전분포가 되고 새로운 데이터를 통해 새로운 사후분포를 만들어나가면 됩니다.
베이지안 관점에서는 이와 같은 과정이 자연스러움을 알 수 있습니다!
관측 데이터에 대해서만 빈도적인 접근을 하는 것이 아닌, \(\mu\)에 대해 불확실성(베타 분포)를 부여함으로써 불확실성을 고려해주게 됩니다.
'Math' 카테고리의 다른 글
가우시안 분포와 확률 (0) | 2021.05.19 |
---|---|
머신 러닝에서 확률 (0) | 2021.05.19 |