본문 바로가기

Statistics

Minimal Sufficient Statistics

casella 책을 개인적으로 정리한 내용입니다.

6.2.2. Minimal Sufficient Statistics

By factorization theorem, $f(x|\theta)=f(T(x)|\theta)h(x)$ . $T(X)=X$ is a sufficient statistic. Also any one-to-one function with inverse $r^{-1}$ , assume $T^*(x)=r(T(x))$. Then by factorizatio theorem,

$f(x|\theta)=g(T(x)|\theta)h(x)=g(r^{-1}(T^*(x))|\theta)h(x)$

Definine $g^(t|\theta)=g(r^{-1}(t)|\theta)$ then $f(x|\theta)=g^(T^*(x)|\theta)h(x)$

Which sufficient statistics is better?

Definition 6.2.11

A sufficient statistics $T(X)$ is called a minimal sufficient statistic if for any other sufficient statistic $T'(X)$, $T(x)$ is a function of $T'(x)$.

즉, $T'(x)=T'(y)$ 이면 $T(x)=T(y)$ 이다.

예를 들어, 정규분포 $(\mu,\sigma^2)$ 에 대해 $\sigma$를 알 때, $\mu$ 에 대한 충분 통계량으로 $T(X)=\bar{X}$ 와 $T'(X)=(\bar{X},S^2)$를 사용할 수 있다. 이 때, T'(x)=T'(y) 이면 T(x)=T(y) 이고 T(X)=r(T'(X))로 표현할 수 있다. 하지만 $\sigma$를 모른다면, T'(x)가 minimal statistics가 될 것이다.

이제 최소 충분 통계량을 찾는 법을 알아보자

Theorem 6.2.13

Let $f(x|\theta)$ be the pmf or pdf of a sample $X$. Suppose there exists a function $T(x)$ s.t, for every two sample points x and y, the ratio $f(x|\theta)/f(y|\theta)$ is constant as a function of $\theta$ if and only if $T(x)=T(y)$. Then $T(X)$ is a minimal sufficient statistic for $\theta$.

Proof )

First show that T(x) is sufficient statistics for X.

$f(x|\theta)=\frac{f(x_{T(x)}|\theta)f(x|\theta)}{f(x_{T(x)}|\theta)}=g(T(x)|\theta)h(x)$

따라서 $T(X)$ 는 충분통계량이다.

Secondly, T(X)가 minimal 하다는 것을 보여주어야 한다.

다른 충분 통계량 $T'(X)$에 대해, factorization theorem에 의해

$\frac{f(x|\theta)}{f(y|\theta)}=\frac{g'(T'(x)|\theta)h'(x)}{g'(T'(y)|\theta)h'(y)}=\frac{h'(x)}{h'(y)}$

example 6.2.14

Normal minimal sufficient statistic. Assume mean and variance is unknown for a normal distribution.

pick $x=(\bar{x},s^2_x),y=(\bar{y},s^2_y)$ . if they are both same, then $\frac{f(x|\mu,\sigma^2)}{f(y|\mu,\sigma^2)}$ is constant to the parameters, so $(\bar{X},S^2)$ is minimal sufficient statistics for $(\mu,\sigma^2)$

example 6.2.14 ( Uniform minimal sufficient statistic)

Suppose the samples are from the interval $(\theta,\theta+1)$

$f(x|\theta)=1\quad if \quad \theta<x_i<\theta+1 \quad else\;0$

$\theta$에 상관없이 $f(x|\theta)/f(y|\theta)$ 가 일정하려면 $min x_i=miny_i \quad maxx_i=maxy_i$ 이여야된다.

따라서 $( X_{(1)},X_{(n)})$ 은 충분통계량이다.

충분 통계량에 one-to-one function은 모두 충분통계량이 될 수 있다. 예를 들어 (M,R) 역시 충분통계량이다.