[Stats] Lec 13 - 분산분석 전 기초 추론 복습

1.1 모분산에 관한 추론

모집단의 변동성(variability) 혹은 퍼짐(spread)의 정도에 관심이 있을 경우 모분산이 추론의 대상이 됨.
모분산의 추정량 _σ_2 의 추정량인 표본분산을 이용할 수 있음.
E(_S_2) = _σ_2 이므로,

$S^2={ {\sum_{i=1}^n(X_i-\bar{X})^2}\over{n-1}}$
카이제곱분포(chi-squared distribution) : k개의 확률변수들이 N(0,1)의 랜덤표본일 때 각 변수들의 제곱합의 분포를 자유도 k인 카이제곱 분포라고 한다.
Theroem (정규모집단에서 표본분산의 분포) : 정규분포로부터의 랜덤 표본이라 할 때 표본분산에 관한 식

${ {(n-1)S^2}\over{\sigma^2}}\sim\chi^2(n-1)$
가정 : 모집단이 정규분포를 따름, 단순임의추출을 해야 함.
증명 : Xi 들이 정규분포 N(μ, _σ_2) 의 랜덤표본일 때,

${ {X_i-\mu}\over{\sigma}}\sim{N(0,1)}$
이고 서로 독립이므로, 카이제곱 분포의 정의로부터
${\sum_{i=1}^n({ { {X_i-\mu}}\over{\sigma}})^2 } = \chi^2(n)$
이며, S2 은 μ 가 아닌 X̄ 로 빼서 구한 것이므로,
${\sum_{i=1}^n({ { {X_i-\mu}}\over{\sigma}})^2 } = {\sum_{i=1}^n({ { {X_i-\bar{X}}}\over{\sigma}})^2 } + n ({ {\bar{X}-\mu}\over{\sigma}})^2$
로 나눌 수 있으며, 적당히 수를 곱하여 좌변은 χ2(n) 을 따르고, 우변의 두번째 항은 χ2(1) 이므로 카이제곱분포의 가법성에 의하여 위 공식이 성립한다.
카이제곱 분포의 분위수 : 자유도가 k인 카이제곱분포의 1 − α 분위수를 χα_2(_k) 로 나타내며, 즉 V ∼ χ_2(_k) 일 때

P{V ≥ χα_2(_k)} = α
Theorem (카이제곱 분포의 가법성) : 각각의 카이제곱을 따르는 두 변수가 서로 독립일 때 두 변수의 합은 각각의 자유도의 합을 자유도로 하는 카이제곱분포와 같다.
모분산의 신뢰구간 : χ_2(_n − 1) 의$\alpha \over 2$와$1-{ {\alpha}\over{2}}$백분위수를 이용하여 유의수준 α 의 신뢰구간

$1-alpha = P {chi_{1-alpha /2} ^2 (n-1) leq {frac{(n-1) S ^2} {sigma ^2} } leq chi_{alpha /2} ^2 (n-1) }$
σ2 로 정리하면 모분산에 대한 100(1 − α)% 신뢰구간은 다음과 같다 :
${\frac{(n-1) s^2}{\chi_{\alpha/2}^2 (n-1)}, \frac{(n-1) s^2}{\chi_{1-\alpha/2}^2 (n-1)}}$
모분산의 가설 검정(정규모집단의 경우) :
- 오른쪽 단측 검정의 경우 H : σ > σ , 유의확률 P = P(χ ≥ χ) 유의수준 α 의 기각역은
  
  χ ≥ χ(n − 1)
  
  1
  
  2
  
  0
  
  2
  
  2
  
  0
  
  2
  
  0
  
  2
  
  α
  
  2
- 왼쪽 단측 검정의 경우 H : σ < σ , 유의확률 P = P(χ ≤ χ) 유의수준 α 의 기각역은
  
  χ ≤ χ(n − 1)
  
  1
  
  2
  
  0
  
  2
  
  2
  
  0
  
  2
  
  0
  
  2
  
  1 − α
  
  2
- 양측검정의 경우의 유의확률은 2P(χ ≥ χ) 와 2P(χ ≤ χ) 중 1보다 작은 값을 유의확률로 계산하며, 유의수준 α 의 기각역은
  
  χ ≥ χ(n − 1) or χ ≤ χ(n − 1)
  
  2
  
  0
  
  2
  
  2
  
  0
  
  2
  
  0
  
  2
  
  α/2
  
  2
  
  0
  
  2
  
  1 − α/2
  
  2

1.2 두 모집단의 모평균의 비교

두 모집단의 모평균의 차이가 있는지를 검정.

귀무가설 _H_0 : _μ_1 = _μ_2, _H_1 : _μ_1 ≠ _μ_2
두 모평균 차의 추정치는 표본평균 차이다. 즉$\widehat{\mu_1 -\mu_2} = \bar{x_1}-\bar{x_2}$
두 모집단의 모평균 : _μ_1, _μ_2 , 모분산 : _σ_12, _σ_22, 표본수 : _n_1, _n_2 , 표본평균 :$\bar{x_1}, \bar{x_2}$, 표본분산 : _s_12, _s_22
두 집단의 모평균 비교에서 필요한 가정사항 : (랜덤표본, 독립관측, 각각 정규분포(CLT는 적용가능))
1. 각 그룹에서의 관측값들은 각 모집단에서의 랜덤 표본이다.
2. 서로 다른 그룹에서의 관측값들은 독립적으로 관측된 것이다.
3. 두 모집단은 각각 정규분포를 따른다. (표본이 클 경우 무시될 수 있음. (by, CLT)
랜덤화(randomization) : 각 처리를 적용할 실험단위를 랜덤하게 정하는 과정.

-$\bar{X_1}-\bar{X_2}$의 표본분포 :

모평균의 차의 추정치 : 모평균의 차

표본평균의 차이의 분산과 표준편차 :

$Var(\bar{X_1}-\bar{X_2}) = Var(\bar{X_1}) + Var(\bar{X_2}) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$
(두 표본평균의 공분산 항이 0임, 독립성에 의해.)

두 모평균의 차이에 관한 추론 ( _σ_12, _σ_22 를 아는 경우)
두 모집단이 정규분포 :$\bar{X_1} - \bar{X_2}$를 표준화시키면 표준정규분포를 따른다.
두 모집단이 정규분포를 따르지 않으면 : 표본수가 증가할수록 CLT에 따라 근사적으로 표준정규분포에 가까워진다.
검정통계량 :

$Z = frac{(bar{X_1}-bar{X_2}) - (mu_1-mu_2)}{sqrt{frac{sigma_1^2}{n_1} + frac{sigma_2^2}{n_2}}} sim{} N(0,1)$
모평균을 알고 검증하는 꼴이므로 검정통계량이 정규분포를 따르게 됨.
μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

$(\bar{X_1}-\bar{X_2}) \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
유의확률과 기각역 : Z-검정을 그대로 따름.
오른쪽 단측 검정의 경우, 유의확률 P = P(Z ≥ z) 유의수준 α 의 기각역은

z ≥ zα
왼쪽 단측 검정의 경우, 유의확률 P = P(Z ≤ z) 유의수준 α 의 기각역은

z ≤ −zα
양측검정의 경우, 유의확률$P=P(Zz)$유의수준 α 의 기각역은

z ≥ zα/2
합동표본분산(pooled sample variance) : _Sp_2 공동모분산 _σ_2 의 추정량으로 각 표본분산의 자유도에 대한 가중평균으로 정의

$S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$
증명) 각각의 분포는 서로 독립이며, 각 분포에 대한 카이제곱 통계량

$\frac{(n_1-1)S_1^2}{\sigma^2} \sim \chi^2(n_1-1)$
$\frac{(n_2-1)S_2^2}{\sigma^2} \sim \chi^2(n_2-1)$
에서 카이제곱 분포의 가법성에 의해..
두 모평균의 차이에 대한 추론(_σ_12, _σ_22 을 모르는 경우, 두 모분산이 같다는 등분산 가정이 있을 때, 정규분포 모집단 가정)
표본평균의 차에 대한 분산 추정 :

$\widehat{Var}(\bar{X_1}-\bar{X_2}) = \frac{\hat{\sigma_1}^2}{n_1} + \frac{\hat{\sigma_2}^2}{n_2}=\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} = S_p^2 (n_1^{-1} + n_2^{-1})$
추정된 분산으로 표준화한 통계량은 자유도 (df = _n_1 − _n_2 − 2) 인 t 분포를 따르게 됨 → 모평균을 모르고 검증하는 꼴이므로 검정통계량이 t분포를 따르게 됨.
검정통계량 T

$T=\frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim{} t_{(n_1+n_2-2)}$
증명 :

$\frac{(n_1+n_2-2)S_p^2}{\sigma^2} \sim{}\chi_2(n_1+n_2-2)$
t분포의 정의
${ {N(0,1)} \over {\chi_2(n_1+n_2-2)}} \sim{} t(n_1+n_2-2)$
사용
μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

$(\bar{X_1}-\bar{X_2}) \pm t_{\alpha/2}(n_1+n_2-2) S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$
오른쪽 단측 검정의 경우, 유의확률 P = P(T ≥ t) 유의수준 α 의 기각역은

t ≥ tα(_n_1 + _n_2 − 2)
왼쪽 단측 검정의 경우, 유의확률 P = P(T ≤ t) 유의수준 α 의 기각역은

t ≤ −tα(_n_1 + _n_2 − 2)
양측검정의 경우, 유의확률$P= P(Tt)$유의수준 α 의 기각역은

t ≥ tα/2(_n_1 + _n_2 − 2)
두 모평균의 차이에 대한 추론( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 같다는 등분산 가정이 있을 때, 정규분포는 아니지만 대표본인 경우)
검정통계량은 근사적으로 표준정규분포를 따르게 됨. (by CLT)
검정통계량 Z

$Z= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \dot\sim N(0,1)$
대표본(_n_1, _n_2 ≥ 30)
두 모평균의 차이에 대한 추론 ( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 다를 때 (이분산) , 정규분포 모집단 가정)
표본평균의 차에 대한 분산 추정 :

$widehat{Var}(bar{X_1}-bar{X_2}) = frac{hat{sigma_1}^2}{n_1} + frac{hat{sigma_2}^2}{n_2}=frac{s_1^2}{n_1} + frac{s_2^2}{n_2}$
추정된 분산으로 표준화한 통계량은 자유도 ( df ) 인 t 분포를 따르게 됨 → 모평균을 모르고 검증하는 꼴이므로 검정통계량이 t분포를 따르게 됨.

$df = \frac{(\frac{S_1^2}{n_1}+ \frac{S_2^2}{n_2})^2}{\frac{(\frac{S_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{S_2^2}{n_2})^2}{n_2-1}}$
검정통계량 T

$T= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \dot\sim{} t_{(df)}$
μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

$(\bar{X_1}-\bar{X_2}) \pm t_{\alpha/2}(df) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}$
오른쪽 단측 검정의 경우, 유의확률 P = P(T ≥ t) 유의수준 α 의 기각역은

t ≥ tα(df)
왼쪽 단측 검정의 경우, 유의확률 P = P(T ≤ t) 유의수준 α 의 기각역은

t ≤ −tα(df)
양측검정의 경우, 유의확률$P= P(Tt)$유의수준 α 의 기각역은

t ≥ tα/2(df)
두 모평균의 차이에 대한 추론 ( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 다를 때 (이분산) ,정규분포는 아니지만 대표본인 경우)
추정된 분산으로 표준화한 통계량은 CLT에 의해 표준정규분포를 따르게 됨.
검정통계량 Z

$Z= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \dot\sim{} N(0,1)$
대표본(_n_1, _n_2 ≥ 30)
μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

$(\bar{X_1}-\bar{X_2}) \pm z_{\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}$
오른쪽 단측 검정의 경우, 유의확률 P = P(Z ≥ z) 유의수준 α 의 기각역은

z ≥ zα
왼쪽 단측 검정의 경우, 유의확률 P = P(Z ≤ z) 유의수준 α 의 기각역은

z ≤ −zα
양측검정의 경우, 유의확률$P= P(Zz)$유의수준 α 의 기각역은

z ≥ zα/2
선형 보간법 : ex) df = 7.8 이면 df=7과 df 8을 가중평균하여 그 값을 이용함. but 시험에서는 가까운 값으로 이용.

1.3 대응비교에 의한 모평균의 비교

두 모집단의 평균을 비교할 때 동질적인 비교 대상들로 쌍을 이루어 각 쌍 내에서 차를 이용해 비교하는 방법
개체간의 이질성을 감안하여야 함. 일반적인 모평균의 비교에서는 독립이라는 가정 만족 못하므로, 두 측정값의 차를 이용해 추론하면 됨.
주어진 자료 :$(X_1, Y_1), (X_n, Y_n)$에서 측정값의 차$d_i = X_i-Y_i$(i = 1, 2, …, n)
가정사항 : 개체의 각 특성값의 차가 정규분포로부터의 랜덤표본의 가정, 표본크기 n이 충분히 크면 근사적 성립.

E(d) = μ − μ = μ $S_D^2 = frac{1}{n-1} sum (d_i-bar{d}) ^2$

i

1

2

D
모평균 μ_의 추정량 표본평균 _D̄, 불편추정량이며 표본평균의 분산

$Var(bar{D}) = frac{s_D^2}{n}$

D

대응평균에 의한 모평균의 비교 방법

-$H_0 : *1 - _2 = _D = 0$에 대한 검정통계량

$T = frac{bar{D}-mu_D}{sqrt{frac{S_D^2}{n}}} sim t{n-1}$ $1 - _2$에 대한$100(1-)%$ 신뢰구간 : $bar{d} pm t*{alpha/2} (n-1) sqrt{frac{s_D^2}{n}}$

오른쪽 단측 검정의 경우, 유의확률$P = P(T t)$유의수준 α 의 기각역은

t ≥ t(n − 1)

α
왼쪽 단측 검정의 경우, 유의확률$P = P(Tt)$유의수준 α 의 기각역은

t ≤ −t(n − 1)

α

양측검정의 경우, 유의확률 P = P(	T	≥	t	) 유의수준 _α_의 기각역은
>	t	≥ t(n − 1)

α/2

등분산 이표본의 비교와 대응비교의 분석
- 주어진 자료에서 총 자료의 갯수 : n , σ, σ 의 값은 모른다고 가정.
  
  X
  
  2
  
  Y
  
  2
- 등분산 이표본 :
  
  $T= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n} + \frac{1}{n}}} \sim{} t_{(2n-2)}$
- 대응비교 :
  
  $T = \frac{\bar{D}-\mu_D}{\sqrt{\frac{S_D^2}{n}}} \sim t_{n-1}$
- 분자는 동일하나, X̄, Ȳ_가 양의 상관관계를 보인다면 _Var(X̄ − Ȳ) 가 작아져 검정통계량 값이 커져 대응비교에서의 귀무가설 기각이 편해짐.
- t분포의 자유도 측면에서는 등분산 이표본이 2n − 2, 대응비교가 n − 1로 동일 조건에서 대응비교의 귀무가설 기각이 더 힘들어짐(대응비교의 penalty)
- 실험단위들이 이질적, 각 쌍 내에서 값들이 양의 상관관계 가지면 대응비교, 그렇지 않으면 등분산 이표본의 비교가 나음.

1.4 두 모비율의 차이에 대한 추론

두 모집단에서 n_1, _n_2개의 랜덤표본의 독립적 추출, 해당 속성이 _X_1, _X_2개 나타남. _X_1, _X_2는 각각 _B(n_1, _p_1), _B(_n_2, _p_2)를 따름.
두 모비율 차의 추정량 :

$\widehat{p_1-p_2} = \hat{p_1}-\hat{p_2} = \frac{X_1}{n_1} - \frac{X_2}{n_2}$
기댓값 : 불편추정량이며, 분산 :

$Var(\widehat{p_1-p_2}) = \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}$
표본크기들이 모두 충분히 큰 경우,

$\hat{p_1} \dot\sim N(p_1, \frac{p_1(1-p_1)}{n_1})$ $\hat{p_2} \dot\sim N(p_2, \frac{p_2(1-p_2)}{n_2})$

에서 각각 독립이므로,

$\hat{p_1}-\hat{p_2} \dot\sim N(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})$ 가 성립함. n이 크다는 것의 기준은 np, n(1-p)가 모두 5 이상.
두 모비율에 차에 대한 100(1 − α)% 신뢰구간

$((\hat{p_1}-\hat{p_2} )-z_{\alpha/2}\hat{SE}(\widehat{p_1-p_2}),(\hat{p_1}-\hat{p_2} )+z_{\alpha/2}\hat{SE}(\widehat{p_1-p_2}))$
두 모비율의 비교를 위한 검정
귀무가설 _H_0 : _p_1 = _p_2 일 때 두 모집단에서의 공통 모비율, 즉 합동표본비율

$\hat{p} = \frac{X_1+X_2}{n_1+n_2}$
분산

$Var(\hat{p_1}-\hat{p_2}) = p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})$ 이므로 분산의 추정량

$\widehat{Var}(\hat{p_1}-\hat{p_2}) = \hat{p}(1-\hat{p}) (\frac{1}{n_1}+\frac{1}{n_2})$
검정통계량

$Z = \frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}(1-\hat{p}) (\frac{1}{n_1}+\frac{1}{n_2})}} \dot\sim N(0,1)$
오른쪽 단측 검정의 경우, 유의확률$P = P(Z z)$유의수준 α 의 기각역은

z ≥ zα
왼쪽 단측 검정의 경우, 유의확률$P = P(Zz)$유의수준 α 의 기각역은

z ≤ −zα

양측검정의 경우, 유의확률 P = P(	Z	≥	z	) 유의수준 _α_의 기각역은
>	z	≥ zα/2

1.5 두 모집단의 분산에 관한 추론

두 모집단 분산 비교 : 두 모평균 비교시 등분산 가정의 적합성 분석
두 모집단의 표준편차 σ, σ 비교, 그 비율이 1이 되면 두 분산/표준편차가 같다고 간주.

1

2
모분산 비율($\frac{\sigma_1^2}{\sigma_2^2}$)에 관한 점추정량 :$\frac{s_1^2}{s_2^2}$
모분산 비율에 대한 추론 :

$\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1-1, n_2-1)$
F 분포 : V, V_가 서로 독립이고 각각 자유도가 _k, k_인 카이제곱 분포를 따를 때$F =$를 자유도 (_k, k) 인 F 분포라고 함.

1

2

1

2

1

2
- F 분포의 분위수 :
  
  P{F ≥ F(k, k)} = α 일 때 이 값을 F분포의 1 − _α_분위수라고 부름.
  
  α
  
  1
  
  2
- F 분포의 특징 :
  
  $\frac{1}{F} \sim F(k_2, k_1) \rightarrow F_{1-\alpha} (k_2, k_1) = \frac{1}{F_\alpha(k_1, k_2)}$
- F분포와 T 분포와의 관계 : 확률변수 T가 자유도 k인 t분포를 따를 때 T ∼ F(1, k)
  
  2
- pf )
  
  $T = \frac{Z}{\sqrt{V/k}}$ 이고 분자 분모가 서로 독립이므로, 양변 제곱하면 Z ∼ χ(1) 이므로 QED
  
  2
  
  2
모분산의 비교시 가정 :
- 두 모집단이 정규분포를 따름.
- 표본 추출 시 독립적인 단순임의추출 필요
모분산의 비에 관한 100(1 − α)% 신뢰구간 :

$(\frac{s_1^2}{s_2^2} / F_{\alpha/2} (n_1-1, n_2-1), \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2} (n_2-1, n_1-1))$
오른쪽 단측 검정의 경우$H_1 : 1^2 > _2 ^2$, 유의확률$P = P(F f)$유의수준 _α 의 기각역은

f ≥ F(n − 1, n − 1)

α

1

2
왼쪽 단측 검정의 경우$H_1 : 1^2 < _2 ^2$, 유의확률$P = P(F f)$유의수준 _α 의 기각역은

f ≤ 1/F(n − 1, n − 1)

α

2

1
양측검정의 경우의 유의확률은 2P(F ≥ f) 와 2P(F ≤ f) 중 1보다 작은 값을 유의확률로 계산하며, 유의수준 _α_의 기각역은

f ≥ F(n − 1, n − 1) f ≤ 1/F(n − 1, n − 1)

α/2

1

2

α/2

2

1

댓글을 불러오는 중입니다.