본문 바로가기

Statistics/Statistical Inference

Ancillary and Complete Statistics

Definition 6.2.16

A statistics $S(X)$ whose distribution doesn't depend on the parameter $\theta$ is called on ancillary statistics.

location familyscale family에서 ancillary statistic을 생각해보자

 

Example 6.2.17 (Uniform ancillary statistic)

예제 6.2.15를 이어서 생각해보면, $R=X_{(n)}-X_{(1)}$ 은 ancillary statistic이다. $R$은 $\theta$ 에 dependent 하지 않다!

$X_{(n)},X_{(1)}$의 joint distribution은

$g(x_{(1)},x_{(n)}|\theta) = n(n-1)(x_{(n)}-x_{(1)})^{n-2}$

$M=\frac{X_{(1)}+X_{(n)}}{2}$ 이라 할 때 M,R로 joint distribution을 표현하면,

$h(r,m|\theta)=n(n-1)r^{n-2}$ when $0<r<1,\theta+(r/2)<m<\theta+1-(r/2)$

m 에 대해 h를 적분하면 $h(r|\theta)$가 $\theta$ 에 dependent 하지 않음을 알 수 있다.

 

Example 6.2.18 (Location family ancillary statistic)

임의의 cdf $F(x-\theta)$를 생각해보자.

$X_i = Z_i +\theta$ 라고 할 때, ($Z\sim F(x)$)

이 때 $F_R(r|\theta)=P_{\theta}(R\leq r)=P_{\theta}(maxX_i-minX_j \leq r) = P_{\theta}(max(Z_i+\theta)-min(Z_i+\theta)\leq r)= P_{\theta}(maxZ_i-minZ_j\leq r)$

즉 R의 distribution은 $\theta$와 관련없어지므로 ancillary statistic이 된다.

 

Example 6.2.19 (Scale family ancillary statistic)

$Z\sim F(X),X\sim F(X/sigma)$ 를 생각해보자

이 때 , $X_1/X_n,X_2/X_n,...,X_n/X_n$은 ancillary statistic이다.

$X_i=\sigma Z_i$ 라고 한다면 쉽게 유추가 가능하다.

예를 들어 $X_1,X_2$ 가 $n(0,\sigma)$ 를 따른다고 하자.

이 때, $\sigma^2$는 scale parameter가 되고 따라서 $X_1/X_2$의 분포는 $\sigma$와 상관없어진다. $\sigma =1$일 때, Cauchy Distribution이 되므로, $X_1/X_2$는 $\sigma$에 상관없이 언제나 Cauchy Distriubtion이 된다.

 

6.2.4 Sufficient, Ancillary, and Complete Statistics

Ancillary statistic과 sufficient statistic은 independent할 수도 있고 dependent할 수도 있다.

예를 들어, Uniform minimal sufficient statistics 예제에서 (M,R)은 sufficient statistics 였고 R은 ancillary statistic 였다.

$P(X=\theta)=P(X=\theta+1)=P(X=\theta+1)=1/3$을 생각해보면

이 때 $X_1,X_2$을 sampling 할 때 sufficient statistic은 (M,R)이 된다.

R= 0 이라고 하면 M은 세 가지 값이 가능할 것이고

R= 1 이라고하면 M은 두가지

R= 2 이면 M = $\theta + 1$ 이 된다.

따라서 minimal sufficient statistic이 ancillary statistic과 dependent한 경우이다.

 

Definition 6.2.21(complete statistic)

Let $f(t|\theta)$ be a family of pdfs or pmfs for a statistic $T(X)$. The family of probability distributions is called complete if $E_{\theta}g(T)=0$ for all $\theta$ implies $P_{\theta}(g(T)=0)=1$ for all $\theta$. Equivalently $T(X)$ is called a complete statistic.

즉, 모든 $\theta$에 대해 , $g_{\theta}(T)$의 T에 대한 기댓값이 0이 된다면 모든 $\theta$ 에대해 $g_{\theta}(T)=0$이라는 것이다.

예를 들어, 정규분포 $X\sim n(\theta,1)$를 생각해보자.

$T(X)=X$라고 할 때, $E[g(T(X))] = E[g(X)]=\int^{\infty}{-\infty} f{\theta}(x)g(x)dx$

모든 $\theta$에 대해 위 식이 0이 되기 위해서는 $g(x)=0$ 이 되어야 한다. 따라서 $T(X)$는 complete statistic이 된다.

 

Example 6.22(Binomial complete sufficient statistic)

Binomial 의 경우를 생각해보자.

$X\sim B(n,p)$, $T(X)=X$

$E_p[g(T)]=0$이 되기 위해서는,

$0=\Sigma g(t)\binom{n}{t}p^t(1-p)^{n-t}=(1-p)^n\Sigma g(t)\binom{n}{t}(p/1-p)^t$

모든 0<p<1 에 대해서 위 식이 성립하기 위해서는 g(t)=0 이 되어야 한다. 따라서 $T$는 complete statistic 이다.

 

Example 6.2.23(Uniform complete sufficient statistc)

IID uniform $(0,\theta)$ 을 생각해보자

$T(X)=max_i X_i$, 일 때,

$F(T|\theta)=\Pi_1^nF_X(T)=(t/\theta)^n$

$f(t|\theta)=nt^{n-1}\theta^{n}$ 이다.

$g(t)$ 를 모든 $\theta$ 에 대해 $E_{\theta}g(T)=0$을 만족하는 함수라고 생각하자.

따라서 $\frac{d}{d\theta}E_{\theta}g(T)=0$ 이 된다.

즉, $\theta^{-1}ng(\theta)=0$ 이 되는데, 따라서 $g(\theta)=0$ 이다. 이 때, g가 미분 가능한 함수여야되지만, 일반적인 함수는 미분 가능하므로, $T(X)$가 complete statistic이라고 해도 된다.

'Statistics > Statistical Inference' 카테고리의 다른 글

Concentration Inequalities  (0) 2021.03.31
Sample Space  (0) 2021.03.05
Location and Scale Family  (0) 2021.01.08
지수족  (0) 2021.01.07
Sufficient Statistics : Factorization Theorem  (0) 2020.12.30