본문 바로가기

Statistics/Bayesian

Normal Model - Inference of mean

Peter Hoff의 A First Course in Bayesian Statistics를 정리한 내용입니다.

이 챕터에서는 standard deviation $\sigma$가 주어졌을 때, mean에 해당하는 $\theta$를 inference 하는 방법을 배웁니다.

Inference of mean with variance

$ \{Y_1, \dots, Y_n \mid \theta, \sigma^2\}\sim \text{i.i.d. normal}\;(\theta,\sigma^2)$라고 합시다. 그러면 joint sampling desity는 아래와 같이 표현할 수 있습니다.

$$\begin{align*} p(y_1,\dots,y_n|\theta,\sigma^2) &= \Pi^n_{i=1} p(y_i | \theta,\sigma^2)\\ &= (2\pi \sigma^2)^{-n/2}\exp \left\{ -\frac{1}{2}\sum^n_{i=1} \left( \frac{y_i - \theta}{\sigma} \right)^2 \right\} \end{align*}$$

여기에서 한 번 더 아래와 같이 정리를 할 수 있습니다.

$$ \sum\limits^n_{i=1} \left( \frac{y_i - \theta}{\sigma} \right)^2 = \frac{1}{\sigma^2}\sum\limits^n_{i=1}y_i^2 -2 \frac{\theta}{\sigma^2} \sum\limits^n_{i=1}y_i + n \frac{\theta^2}{\sigma^2}$$

즉, $ ( \sum\limits^n_{i=1}y_i^2, \sum\limits^n_{i=1}y_i)$ 가 충분통계량이 되며, 이로부터 $ ( \bar{y}, s^2 ) $ 역시 충분통계량이 되는 것을 확인할 수 있습니다.

이제  $\theta$의 posterior 를 생각해보면

$$ p(\theta|y_1,\dots,y_n,\sigma^2) \propto p(\theta|\sigma^2) \times e^{c_1 (\theta-c_2)^2}$$

가 됩니다.

여기서 prior인 $p( \theta | \sigma^2)$가 normal distriubtion을 따른다고 한다면, posterior도 normal distirubtion을 따르게 됩니다.

즉, $\theta \sim \mathcal{N} (\mu_0,\tau_0^2)$이면

$$p(\theta|\sigma^2,y_1,\dots,y_n) \propto \mathcal{N}( \frac{b}{a}, \frac{1}{\sqrt{a}})$$

where $ a= \frac{1}{\tau_0} + \frac{n}{\sigma^2}, b= \frac{\mu_0}{\tau^2}+ \frac{\sum\limits^n_{i=1} y_i}{\sigma^2}$ 이 됩니다.

즉, posterior variance $\tau_n^2$는 , 

$$ \frac{1}{ \tau_n^2 }= \frac{1}{\tau_0} + \frac{n}{\sigma^2}$$으로 표현할 수 있는데, 이는 prior variance의 역수와 data variance의 역수를 더한 값입니다.

즉, variance의 역수를 precision으로 정의하는데,

$$ \text{posterior precision} = \text{prior precision} + \text{data precision}$$이 됩니다.

이제 precision을 아래와 같은 notation을 사용해 표현합니다.

$$ \tilde{\tau}^2_n = \frac{1}{\tau^2_n} ,\tilde{\tau}^2_0 = \frac{1}{\tau^2_0}, \tilde{\sigma}^2 = \frac{1}{\sigma^2}$$  

그러면 이제 posterior mean을 표현해보겠습니다.

$$ \mu_n = \frac{\tilde{\tau}^2_0}{\tilde{\tau}^2_0 + n \tilde{\sigma}^2} \mu_0 + \frac{n\sigma^2}{\tilde{\tau}^2_0 + n \tilde{\sigma}^2}\bar{y}$$이 됩니다. 즉, precision에 비례해서 prior mean과 data mean의 weighted average를 구하게 됩니다.

만약에 prior mean이 $Y_1,\dots,Y_n$과 동일한 distribution으로부터 얻어지는 $n_0$개의 observation으로 구해졌다면, $\tau_0^2 = \frac{\sigma^2}{n_0}$라고 생각할 수 있고, 이를 이용해 posterior mean을 다시 구해보면,

$$ \mu_n = \frac{n_0}{n_0 + n} \mu_0 + \frac{n}{n_0+n} \bar{y}$$ 가 됩니다.

즉, prior와 sampling한 data의 수에 비례해서 mean을 구하게 됩니다.

Prediction

Posterior predictive distriubtion의 경우, $ \tilde{Y} \sim \mathcal{N} (\theta,\sigma^2)$를 따르게 됩니다.

이는 다시, $ \bar{Y} = \theta + \tilde{\epsilon}, \; \tilde{\epsilon} \sim \mathcal{N}(0,\sigma^2)$으로 표현할 수 있습니다.

New observation $\tilde{Y}$의 Expectation과 Variance를 구해보면,

$$ E [\tilde{Y} | y_1,\dots,y_n,\sigma^2] = E[\theta | y_1,\dots,y_n,\sigma^2]+E[\tilde{\epsilon} | y_1,\dots,y_n,\sigma^2]= \mu_n$$ 이 됩니다.

Variance의 경우,

$$Var (\tilde{Y} | y_1,\dots,y_n,\sigma^2) = Var(\theta|y_1,\dots,y_n,\sigma^2) + Var(\tilde{\epsilon}|y_1,\dots,y_n,\sigma^2)=\tau^2_n + \sigma^2$$가 됩니다. 즉, Variance의 경우, $\mu_n$에 대한 uncertainty($\tau^2_n$)와 기존 population에 대한 uncertainty($\sigma^2$)를 포함하고 있습니다.

'Statistics > Bayesian' 카테고리의 다른 글

Exchangeability  (0) 2022.03.18