Peter Hoff의 A First Course in Bayesian Statistics를 정리한 내용입니다.
이 챕터에서는 standard deviation $\sigma$가 주어졌을 때, mean에 해당하는 $\theta$를 inference 하는 방법을 배웁니다.
Inference of mean with variance
$ \{Y_1, \dots, Y_n \mid \theta, \sigma^2\}\sim \text{i.i.d. normal}\;(\theta,\sigma^2)$라고 합시다. 그러면 joint sampling desity는 아래와 같이 표현할 수 있습니다.
$$\begin{align*} p(y_1,\dots,y_n|\theta,\sigma^2) &= \Pi^n_{i=1} p(y_i | \theta,\sigma^2)\\ &= (2\pi \sigma^2)^{-n/2}\exp \left\{ -\frac{1}{2}\sum^n_{i=1} \left( \frac{y_i - \theta}{\sigma} \right)^2 \right\} \end{align*}$$
여기에서 한 번 더 아래와 같이 정리를 할 수 있습니다.
$$ \sum\limits^n_{i=1} \left( \frac{y_i - \theta}{\sigma} \right)^2 = \frac{1}{\sigma^2}\sum\limits^n_{i=1}y_i^2 -2 \frac{\theta}{\sigma^2} \sum\limits^n_{i=1}y_i + n \frac{\theta^2}{\sigma^2}$$
즉, $ ( \sum\limits^n_{i=1}y_i^2, \sum\limits^n_{i=1}y_i)$ 가 충분통계량이 되며, 이로부터 $ ( \bar{y}, s^2 ) $ 역시 충분통계량이 되는 것을 확인할 수 있습니다.
이제 $\theta$의 posterior 를 생각해보면
$$ p(\theta|y_1,\dots,y_n,\sigma^2) \propto p(\theta|\sigma^2) \times e^{c_1 (\theta-c_2)^2}$$
가 됩니다.
여기서 prior인 $p( \theta | \sigma^2)$가 normal distriubtion을 따른다고 한다면, posterior도 normal distirubtion을 따르게 됩니다.
즉, $\theta \sim \mathcal{N} (\mu_0,\tau_0^2)$이면
$$p(\theta|\sigma^2,y_1,\dots,y_n) \propto \mathcal{N}( \frac{b}{a}, \frac{1}{\sqrt{a}})$$
where $ a= \frac{1}{\tau_0} + \frac{n}{\sigma^2}, b= \frac{\mu_0}{\tau^2}+ \frac{\sum\limits^n_{i=1} y_i}{\sigma^2}$ 이 됩니다.
즉, posterior variance $\tau_n^2$는 ,
$$ \frac{1}{ \tau_n^2 }= \frac{1}{\tau_0} + \frac{n}{\sigma^2}$$으로 표현할 수 있는데, 이는 prior variance의 역수와 data variance의 역수를 더한 값입니다.
즉, variance의 역수를 precision으로 정의하는데,
$$ \text{posterior precision} = \text{prior precision} + \text{data precision}$$이 됩니다.
이제 precision을 아래와 같은 notation을 사용해 표현합니다.
$$ \tilde{\tau}^2_n = \frac{1}{\tau^2_n} ,\tilde{\tau}^2_0 = \frac{1}{\tau^2_0}, \tilde{\sigma}^2 = \frac{1}{\sigma^2}$$
그러면 이제 posterior mean을 표현해보겠습니다.
$$ \mu_n = \frac{\tilde{\tau}^2_0}{\tilde{\tau}^2_0 + n \tilde{\sigma}^2} \mu_0 + \frac{n\sigma^2}{\tilde{\tau}^2_0 + n \tilde{\sigma}^2}\bar{y}$$이 됩니다. 즉, precision에 비례해서 prior mean과 data mean의 weighted average를 구하게 됩니다.
만약에 prior mean이 $Y_1,\dots,Y_n$과 동일한 distribution으로부터 얻어지는 $n_0$개의 observation으로 구해졌다면, $\tau_0^2 = \frac{\sigma^2}{n_0}$라고 생각할 수 있고, 이를 이용해 posterior mean을 다시 구해보면,
$$ \mu_n = \frac{n_0}{n_0 + n} \mu_0 + \frac{n}{n_0+n} \bar{y}$$ 가 됩니다.
즉, prior와 sampling한 data의 수에 비례해서 mean을 구하게 됩니다.
Prediction
Posterior predictive distriubtion의 경우, $ \tilde{Y} \sim \mathcal{N} (\theta,\sigma^2)$를 따르게 됩니다.
이는 다시, $ \bar{Y} = \theta + \tilde{\epsilon}, \; \tilde{\epsilon} \sim \mathcal{N}(0,\sigma^2)$으로 표현할 수 있습니다.
New observation $\tilde{Y}$의 Expectation과 Variance를 구해보면,
$$ E [\tilde{Y} | y_1,\dots,y_n,\sigma^2] = E[\theta | y_1,\dots,y_n,\sigma^2]+E[\tilde{\epsilon} | y_1,\dots,y_n,\sigma^2]= \mu_n$$ 이 됩니다.
Variance의 경우,
$$Var (\tilde{Y} | y_1,\dots,y_n,\sigma^2) = Var(\theta|y_1,\dots,y_n,\sigma^2) + Var(\tilde{\epsilon}|y_1,\dots,y_n,\sigma^2)=\tau^2_n + \sigma^2$$가 됩니다. 즉, Variance의 경우, $\mu_n$에 대한 uncertainty($\tau^2_n$)와 기존 population에 대한 uncertainty($\sigma^2$)를 포함하고 있습니다.
'Statistics > Bayesian' 카테고리의 다른 글
Exchangeability (0) | 2022.03.18 |
---|