본문 바로가기

Statistics/Statistical Inference

지수족

Definition(exponential families)

A family of pdfs or pmfs is called an exponential family if it can be expressed as

$f(x|\theta)=h(x)c(\theta)exp(\Sigma^k_1w_i(\theta)t_i(x))$

h(x)와 t(x)는 observation x에 대한 real-valued functions들이고 $c(\theta)$아 $w(\theta)$는 parameter에 대한 real-valued functions 들이다.

Example 3.4.1 : binomial exponential family

이항분포 (n,p)도 exponential family 라고 할 수 있는데,

$f(x|p)=\binom{n}{x}p^x(1-p)^{n-x}=\binom{n}{x}(1-p)^n(\frac{p}{1-p})^x=\binom{n}{x}(1-p)^nexp(xlog(\frac{p}{1-p}))$

따라서 이항분포도 지수족이다.

Theorem 3.4.2

$X$가 지수족을 따르는 랜덤 확률변수라면, 다음 식들이 성립한다.

Example 3.4.3 (Binomial mean and variance)

Example 3.4.1로부터

$\frac{d}{dp}w(p)=\frac{d}{dp}(log\frac{p}{1-p})=\frac{1}{p(1-p)}$ 이다.

그리고 $\frac{d}{dp}logc(p)=\frac{d}{dp}nlog(1-p)=\frac{-n}{1-p}$

따라서, Theorem 3.4.2에 의해,

$E[t(x)]=p(1-p)*\frac{n}{1-p}=np$ 이다.

Variance도 마찬가지로 쉽게 구할 수 있다.

 

Example 3.4.4 (Normal exponential family)

Let $f(x|\mu,\sigma^2)$

$f(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{(x-\mu)^2}{2\sigma^2})=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{x^2}{2}+\frac{\mu x}{\sigma^2})exp(-\frac{\mu^2}{2\sigma^2})$

즉 여기서, $t_1(x)=-\frac{x^2}{2},t_2(x)=\frac{\mu x}{\sigma^2}$ 이다.

 

Corollary ( Indicator Function)

Indicator Function에 대해 생각해보자.

$f(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{(x-\mu)^2}{2\sigma^2})=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{x^2}{2}+\frac{\mu x}{\sigma^2})exp(-\frac{\mu^2}{2\sigma^2})I_{(-\infin,\infin)}(x)$이고

여기서 Indicator Function은 parameter에 dependent하지 않으므로 h(x)의 일부라고 생각할 수 있다.

반대로

$f(x|\theta)=\theta^{-1}exp(1-\frac{x}{\theta})I_{(\theta,\infin)}$를 생각해보면, Indicator function이 $\theta$와 $x$로 나누어지지 않으므로, 해당 pdf는 지수족이 아니다.

 

Natural pararmeter Space

$f(x|\theta)=h(x)c(\theta)exp(\Sigma^k_1w_i(\theta)t_i(x))$를 다시표현하면

$f(x|\eta)=h(x)c^*(\eta)exp(\Sigma^k_1 \eta_i t_i(x))$ 이다.

이 때, $\int^{\infty}_{-\infty} h(x)exp(\Sigma^k_1 \eta_i t_i(x))dx<\infty$를 만족하는 $(\eta_1,\eta_2,\eta_3,...,\eta_k)$를 Natural Parameter Space라고 한다.

이 때 f는 pmf 혹은 pdf이므로 $c^*(\eta)=\frac{1}{\int^{\infty}_{-\infty} h(x)exp(\Sigma^k_1 \eta_i t_i(x))dx}$ 을 만족해야 한다.

$f(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{(x-\mu)^2}{2\sigma^2})=\frac{1}{\sqrt{2\pi\sigma}}exp(-\frac{x^2}{2}+\frac{\mu x}{\sigma^2})exp(-\frac{\mu^2}{2\sigma^2})$ 를 $\eta$ 로 정리하면,

$f(x|\eta_1,\eta_2)=\frac{\sqrt{\eta_1}}{\sqrt{2\pi}}exp(-\eta_2^2/2\eta_1)exp(-\frac{\eta_1}{2}x^2+ \eta_2x)$

$\eta_2=\frac{\mu}{\sigma^2}$, $\eta_1 = \frac{1}{\sigma^2}$ 이다. 이 때 적분이 유한하려면 $\eta_1>0$ 이여야 된다.

 

curved exponential family

d=k일 때 full exponential family라고 한다.

 

Example 3.4.8 (Curved exponential family)

$\mu^2=\sigma^2$ 일 때 $N(\mu,\sigma^2)$ 는 curved exponential family이다.

 

Example 3.4.9 (Normal approximations)

Poisson 분포로부터 sampling한 확률 변수를 X라 할 때,

$\bar{X} \sim n(\lambda,\lambda/n)$ 이다. 이는 curved exponential family이다.

마찬가지로 X가 이항분포를 따를 때,

$\bar{X}\sim n(p,p(1-p)/n)$ 는 curved exponential family이다

'Statistics > Statistical Inference' 카테고리의 다른 글

Concentration Inequalities  (0) 2021.03.31
Sample Space  (0) 2021.03.05
Location and Scale Family  (0) 2021.01.08
Ancillary and Complete Statistics  (0) 2021.01.06
Sufficient Statistics : Factorization Theorem  (0) 2020.12.30