Celenort
Conciencia
게시물 253
오늘 0
전체 0
A site about logging consciousness

[Stats] Lec 13 - 분산분석 전 기초 추론 복습

1.1 모분산에 관한 추론

  • 모집단의 변동성(variability) 혹은 퍼짐(spread)의 정도에 관심이 있을 경우 모분산이 추론의 대상이 됨.
  • 모분산의 추정량 _σ_2 의 추정량인 표본분산을 이용할 수 있음.
  • E(_S_2) = _σ_2 이므로,

    $S^2={ {\sum_{i=1}^n(X_i-\bar{X})^2}\over{n-1}}$

  • 카이제곱분포(chi-squared distribution) : k개의 확률변수들이 N(0,1)의 랜덤표본일 때 각 변수들의 제곱합의 분포를 자유도 k인 카이제곱 분포라고 한다.
  • Theroem (정규모집단에서 표본분산의 분포) : 정규분포로부터의 랜덤 표본이라 할 때 표본분산에 관한 식

    ${ {(n-1)S^2}\over{\sigma^2}}\sim\chi^2(n-1)$

  • 가정 : 모집단이 정규분포를 따름, 단순임의추출을 해야 함.
  • 증명 : Xi 들이 정규분포 N(μ, _σ_2) 의 랜덤표본일 때,

    ${ {X_i-\mu}\over{\sigma}}\sim{N(0,1)}$
    이고 서로 독립이므로, 카이제곱 분포의 정의로부터
    ${\sum_{i=1}^n({ { {X_i-\mu}}\over{\sigma}})^2 } = \chi^2(n)$
    이며, S2 은 μ 가 아닌 X̄ 로 빼서 구한 것이므로,
    ${\sum_{i=1}^n({ { {X_i-\mu}}\over{\sigma}})^2 } = {\sum_{i=1}^n({ { {X_i-\bar{X}}}\over{\sigma}})^2 } + n ({ {\bar{X}-\mu}\over{\sigma}})^2$
    로 나눌 수 있으며, 적당히 수를 곱하여 좌변은 χ2(n) 을 따르고, 우변의 두번째 항은 χ2(1) 이므로 카이제곱분포의 가법성에 의하여 위 공식이 성립한다.

  • 카이제곱 분포의 분위수 : 자유도가 k인 카이제곱분포의 1 − α 분위수를 χα_2(_k) 로 나타내며, 즉 V ∼ χ_2(_k) 일 때

    P{V ≥ χα_2(_k)} = α

  • Theorem (카이제곱 분포의 가법성) : 각각의 카이제곱을 따르는 두 변수가 서로 독립일 때 두 변수의 합은 각각의 자유도의 합을 자유도로 하는 카이제곱분포와 같다.
  • 모분산의 신뢰구간 : χ_2(_n − 1) 의$\alpha \over 2$와$1-{ {\alpha}\over{2}}$백분위수를 이용하여 유의수준 α 의 신뢰구간

    $1-alpha = P {chi_{1-alpha /2} ^2 (n-1) leq {frac{(n-1) S ^2} {sigma ^2} } leq chi_{alpha /2} ^2 (n-1) }$
    σ2 로 정리하면 모분산에 대한 100(1 − α)% 신뢰구간은 다음과 같다 :
    ${\frac{(n-1) s^2}{\chi_{\alpha/2}^2 (n-1)}, \frac{(n-1) s^2}{\chi_{1-\alpha/2}^2 (n-1)}}$

  • 모분산의 가설 검정(정규모집단의 경우) :
    • 오른쪽 단측 검정의 경우 H : σ > σ , 유의확률 P = P(χ ≥ χ) 유의수준 α 의 기각역은

      χ ≥ χ(n − 1)

      1

      2

      0

      2

      2

      0

      2

      0

      2

      α

      2

    • 왼쪽 단측 검정의 경우 H : σ < σ , 유의확률 P = P(χ ≤ χ) 유의수준 α 의 기각역은

      χ ≤ χ(n − 1)

      1

      2

      0

      2

      2

      0

      2

      0

      2

      1 − α

      2

    • 양측검정의 경우의 유의확률은 2P(χ ≥ χ) 와 2P(χ ≤ χ) 중 1보다 작은 값을 유의확률로 계산하며, 유의수준 α 의 기각역은

      χ ≥ χ(n − 1) or χ ≤ χ(n − 1)

      2

      0

      2

      2

      0

      2

      0

      2

      α/2

      2

      0

      2

      1 − α/2

      2

1.2 두 모집단의 모평균의 비교

  • 두 모집단의 모평균의 차이가 있는지를 검정.

    귀무가설 _H_0 : _μ_1 = _μ_2, _H_1 : _μ_1 ≠ _μ_2

  • 두 모평균 차의 추정치는 표본평균 차이다. 즉$\widehat{\mu_1 -\mu_2} = \bar{x_1}-\bar{x_2}$
  • 두 모집단의 모평균 : _μ_1, _μ_2 , 모분산 : _σ_12, _σ_22, 표본수 : _n_1, _n_2 , 표본평균 :$\bar{x_1}, \bar{x_2}$, 표본분산 : _s_12, _s_22
  • 두 집단의 모평균 비교에서 필요한 가정사항 : (랜덤표본, 독립관측, 각각 정규분포(CLT는 적용가능))
    1. 각 그룹에서의 관측값들은 각 모집단에서의 랜덤 표본이다.
    2. 서로 다른 그룹에서의 관측값들은 독립적으로 관측된 것이다.
    3. 두 모집단은 각각 정규분포를 따른다. (표본이 클 경우 무시될 수 있음. (by, CLT)
  • 랜덤화(randomization) : 각 처리를 적용할 실험단위를 랜덤하게 정하는 과정.

-$\bar{X_1}-\bar{X_2}$의 표본분포 :

모평균의 차의 추정치 : 모평균의 차

표본평균의 차이의 분산과 표준편차 :

$Var(\bar{X_1}-\bar{X_2}) = Var(\bar{X_1}) + Var(\bar{X_2}) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$
(두 표본평균의 공분산 항이 0임, 독립성에 의해.)

  • 두 모평균의 차이에 관한 추론 ( _σ_12, _σ_22 를 아는 경우)
  • 두 모집단이 정규분포 :$\bar{X_1} - \bar{X_2}$를 표준화시키면 표준정규분포를 따른다.
  • 두 모집단이 정규분포를 따르지 않으면 : 표본수가 증가할수록 CLT에 따라 근사적으로 표준정규분포에 가까워진다.
  • 검정통계량 :

    $Z = frac{(bar{X_1}-bar{X_2}) - (mu_1-mu_2)}{sqrt{frac{sigma_1^2}{n_1} + frac{sigma_2^2}{n_2}}} sim{} N(0,1)$

  • 모평균을 알고 검증하는 꼴이므로 검정통계량이 정규분포를 따르게 됨.
  • μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

    $(\bar{X_1}-\bar{X_2}) \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$

  • 유의확률과 기각역 : Z-검정을 그대로 따름.
  • 오른쪽 단측 검정의 경우, 유의확률 P = P(Z ≥ z) 유의수준 α 의 기각역은

    z ≥ 

  • 왼쪽 단측 검정의 경우, 유의확률 P = P(Z ≤ z) 유의수준 α 의 기각역은

    z ≤ −

  • 양측검정의 경우, 유의확률$P=P(Zz)$유의수준 α 의 기각역은
    z  ≥ /2
  • 합동표본분산(pooled sample variance) : _Sp_2 공동모분산 _σ_2 의 추정량으로 각 표본분산의 자유도에 대한 가중평균으로 정의

    $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$

  • 증명) 각각의 분포는 서로 독립이며, 각 분포에 대한 카이제곱 통계량

    $\frac{(n_1-1)S_1^2}{\sigma^2} \sim \chi^2(n_1-1)$
    $\frac{(n_2-1)S_2^2}{\sigma^2} \sim \chi^2(n_2-1)$
    에서 카이제곱 분포의 가법성에 의해..

  • 두 모평균의 차이에 대한 추론(_σ_12, _σ_22 을 모르는 경우, 두 모분산이 같다는 등분산 가정이 있을 때, 정규분포 모집단 가정)
  • 표본평균의 차에 대한 분산 추정 :

    $\widehat{Var}(\bar{X_1}-\bar{X_2}) = \frac{\hat{\sigma_1}^2}{n_1} + \frac{\hat{\sigma_2}^2}{n_2}=\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2} = S_p^2 (n_1^{-1} + n_2^{-1})$

  • 추정된 분산으로 표준화한 통계량은 자유도 (df = _n_1 − _n_2 − 2) 인 t 분포를 따르게 됨 → 모평균을 모르고 검증하는 꼴이므로 검정통계량이 t분포를 따르게 됨.
  • 검정통계량 T

    $T=\frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim{} t_{(n_1+n_2-2)}$

  • 증명 :

    $\frac{(n_1+n_2-2)S_p^2}{\sigma^2} \sim{}\chi_2(n_1+n_2-2)$
    t분포의 정의
    ${ {N(0,1)} \over {\chi_2(n_1+n_2-2)}} \sim{} t(n_1+n_2-2)$
    사용

  • μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

    $(\bar{X_1}-\bar{X_2}) \pm t_{\alpha/2}(n_1+n_2-2) S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}$

  • 오른쪽 단측 검정의 경우, 유의확률 P = P(T ≥ t) 유의수준 α 의 기각역은

    t ≥ (_n_1 + _n_2 − 2)

  • 왼쪽 단측 검정의 경우, 유의확률 P = P(T ≤ t) 유의수준 α 의 기각역은

    t ≤ −(_n_1 + _n_2 − 2)

  • 양측검정의 경우, 유의확률$P= P(Tt)$유의수준 α 의 기각역은
    t  ≥ /2(_n_1 + _n_2 − 2)
  • 두 모평균의 차이에 대한 추론( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 같다는 등분산 가정이 있을 때, 정규분포는 아니지만 대표본인 경우)
  • 검정통계량은 근사적으로 표준정규분포를 따르게 됨. (by CLT)
  • 검정통계량 Z

    $Z= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \dot\sim N(0,1)$

  • 대표본(_n_1, _n_2 ≥ 30)
  • 두 모평균의 차이에 대한 추론 ( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 다를 때 (이분산) , 정규분포 모집단 가정)
  • 표본평균의 차에 대한 분산 추정 :

    $widehat{Var}(bar{X_1}-bar{X_2}) = frac{hat{sigma_1}^2}{n_1} + frac{hat{sigma_2}^2}{n_2}=frac{s_1^2}{n_1} + frac{s_2^2}{n_2}$

  • 추정된 분산으로 표준화한 통계량은 자유도 ( df ) 인 t 분포를 따르게 됨 → 모평균을 모르고 검증하는 꼴이므로 검정통계량이 t분포를 따르게 됨.

    $df = \frac{(\frac{S_1^2}{n_1}+ \frac{S_2^2}{n_2})^2}{\frac{(\frac{S_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{S_2^2}{n_2})^2}{n_2-1}}$

  • 검정통계량 T

    $T= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \dot\sim{} t_{(df)}$

  • μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

    $(\bar{X_1}-\bar{X_2}) \pm t_{\alpha/2}(df) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}$

  • 오른쪽 단측 검정의 경우, 유의확률 P = P(T ≥ t) 유의수준 α 의 기각역은

    t ≥ (df)

  • 왼쪽 단측 검정의 경우, 유의확률 P = P(T ≤ t) 유의수준 α 의 기각역은

    t ≤ −(df)

  • 양측검정의 경우, 유의확률$P= P(Tt)$유의수준 α 의 기각역은
    t  ≥ /2(df)
  • 두 모평균의 차이에 대한 추론 ( _σ_12, _σ_22 을 모르는 경우, 두 모분산이 다를 때 (이분산) ,정규분포는 아니지만 대표본인 경우)
  • 추정된 분산으로 표준화한 통계량은 CLT에 의해 표준정규분포를 따르게 됨.
  • 검정통계량 Z

    $Z= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \dot\sim{} N(0,1)$

  • 대표본(_n_1, _n_2 ≥ 30)
  • μ_1 − _μ_2 에 대한 100(1 − _α)% 신뢰구간 :

    $(\bar{X_1}-\bar{X_2}) \pm z_{\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}$

  • 오른쪽 단측 검정의 경우, 유의확률 P = P(Z ≥ z) 유의수준 α 의 기각역은

    z ≥ 

  • 왼쪽 단측 검정의 경우, 유의확률 P = P(Z ≤ z) 유의수준 α 의 기각역은

    z ≤ −

  • 양측검정의 경우, 유의확률$P= P(Zz)$유의수준 α 의 기각역은
    z  ≥ /2
  • 선형 보간법 : ex) df = 7.8 이면 df=7과 df 8을 가중평균하여 그 값을 이용함. but 시험에서는 가까운 값으로 이용.

1.3 대응비교에 의한 모평균의 비교

  • 두 모집단의 평균을 비교할 때 동질적인 비교 대상들로 쌍을 이루어 각 쌍 내에서 차를 이용해 비교하는 방법
  • 개체간의 이질성을 감안하여야 함. 일반적인 모평균의 비교에서는 독립이라는 가정 만족 못하므로, 두 측정값의 차를 이용해 추론하면 됨.
  • 주어진 자료 :$(X_1, Y_1), (X_n, Y_n)$에서 측정값의 차$d_i = X_i-Y_i$(i = 1, 2, …, n)
  • 가정사항 : 개체의 각 특성값의 차가 정규분포로부터의 랜덤표본의 가정, 표본크기 n이 충분히 크면 근사적 성립.

    E(d) = μ − μ = μ $S_D^2 = frac{1}{n-1} sum (d_i-bar{d}) ^2$

    i

    1

    2

    D

  • 모평균 μ_의 추정량 표본평균 _D̄, 불편추정량이며 표본평균의 분산

    $Var(bar{D}) = frac{s_D^2}{n}$

    D

  • 대응평균에 의한 모평균의 비교 방법

    -$H_0 : *1 - _2 = _D = 0$에 대한 검정통계량

    $T = frac{bar{D}-mu_D}{sqrt{frac{S_D^2}{n}}} sim t{n-1}$ $1 - _2$에 대한$100(1-)%$ 신뢰구간 : \(bar{d} pm t*{alpha/2} (n-1) sqrt{frac{s_D^2}{n}}\)

    • 오른쪽 단측 검정의 경우, 유의확률$P = P(T t)$유의수준 α 의 기각역은

      t ≥ t(n − 1)

      α

    • 왼쪽 단측 검정의 경우, 유의확률$P = P(Tt)$유의수준 α 의 기각역은

      t ≤ −t(n − 1)

      α

    • 양측검정의 경우, 유의확률 P = P( T  ≥  t ) 유의수준 _α_의 기각역은
      > t  ≥ t(n − 1)    

      α/2

  • 등분산 이표본의 비교와 대응비교의 분석
    • 주어진 자료에서 총 자료의 갯수 : n , σ, σ 의 값은 모른다고 가정.

      X

      2

      Y

      2

    • 등분산 이표본 :

      $T= \frac{(\bar{X_1}-\bar{X_2}) - (\mu_1-\mu_2)}{S_p \sqrt{\frac{1}{n} + \frac{1}{n}}} \sim{} t_{(2n-2)}$

    • 대응비교 :

      $T = \frac{\bar{D}-\mu_D}{\sqrt{\frac{S_D^2}{n}}} \sim t_{n-1}$

    • 분자는 동일하나, , Ȳ_가 양의 상관관계를 보인다면 _Var( − ) 가 작아져 검정통계량 값이 커져 대응비교에서의 귀무가설 기각이 편해짐.
    • t분포의 자유도 측면에서는 등분산 이표본이 2n − 2, 대응비교가 n − 1로 동일 조건에서 대응비교의 귀무가설 기각이 더 힘들어짐(대응비교의 penalty)
    • 실험단위들이 이질적, 각 쌍 내에서 값들이 양의 상관관계 가지면 대응비교, 그렇지 않으면 등분산 이표본의 비교가 나음.

1.4 두 모비율의 차이에 대한 추론

  • 두 모집단에서 n_1, _n_2개의 랜덤표본의 독립적 추출, 해당 속성이 _X_1, _X_2개 나타남. _X_1, _X_2는 각각 _B(n_1, _p_1), _B(_n_2, _p_2)를 따름.
  • 두 모비율 차의 추정량 :

    $\widehat{p_1-p_2} = \hat{p_1}-\hat{p_2} = \frac{X_1}{n_1} - \frac{X_2}{n_2}$

  • 기댓값 : 불편추정량이며, 분산 :

    $Var(\widehat{p_1-p_2}) = \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}$

  • 표본크기들이 모두 충분히 큰 경우,

    $\hat{p_1} \dot\sim N(p_1, \frac{p_1(1-p_1)}{n_1})$ $\hat{p_2} \dot\sim N(p_2, \frac{p_2(1-p_2)}{n_2})$

    에서 각각 독립이므로,

    $\hat{p_1}-\hat{p_2} \dot\sim N(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2})$ 가 성립함. n이 크다는 것의 기준은 np, n(1-p)가 모두 5 이상.

  • 두 모비율에 차에 대한 100(1 − α)% 신뢰구간

    $((\hat{p_1}-\hat{p_2} )-z_{\alpha/2}\hat{SE}(\widehat{p_1-p_2}),(\hat{p_1}-\hat{p_2} )+z_{\alpha/2}\hat{SE}(\widehat{p_1-p_2}))$

  • 두 모비율의 비교를 위한 검정
  • 귀무가설 _H_0 : _p_1 = _p_2 일 때 두 모집단에서의 공통 모비율, 즉 합동표본비율

    $\hat{p} = \frac{X_1+X_2}{n_1+n_2}$

  • 분산

    $Var(\hat{p_1}-\hat{p_2}) = p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})$ 이므로 분산의 추정량

    $\widehat{Var}(\hat{p_1}-\hat{p_2}) = \hat{p}(1-\hat{p}) (\frac{1}{n_1}+\frac{1}{n_2})$

  • 검정통계량

    $Z = \frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}(1-\hat{p}) (\frac{1}{n_1}+\frac{1}{n_2})}} \dot\sim N(0,1)$

  • 오른쪽 단측 검정의 경우, 유의확률$P = P(Z z)$유의수준 α 의 기각역은

    z ≥ 

  • 왼쪽 단측 검정의 경우, 유의확률$P = P(Zz)$유의수준 α 의 기각역은

    z ≤ −

  • 양측검정의 경우, 유의확률 P = P( Z  ≥  z ) 유의수준 _α_의 기각역은
    > z  ≥ /2    

1.5 두 모집단의 분산에 관한 추론

  • 두 모집단 분산 비교 : 두 모평균 비교시 등분산 가정의 적합성 분석
  • 두 모집단의 표준편차 σ, σ 비교, 그 비율이 1이 되면 두 분산/표준편차가 같다고 간주.

    1

    2

  • 모분산 비율($\frac{\sigma_1^2}{\sigma_2^2}$)에 관한 점추정량 :$\frac{s_1^2}{s_2^2}$
  • 모분산 비율에 대한 추론 :

    $\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1-1, n_2-1)$

  • F 분포 : V, V_가 서로 독립이고 각각 자유도가 _k, k_인 카이제곱 분포를 따를 때$F =$를 자유도 (_k, k) 인 F 분포라고 함.

    1

    2

    1

    2

    1

    2

    • F 분포의 분위수 :

      P{F ≥ F(k, k)} = α 일 때 이 값을 F분포의 1 − _α_분위수라고 부름.

      α

      1

      2

    • F 분포의 특징 :

      $\frac{1}{F} \sim F(k_2, k_1) \rightarrow F_{1-\alpha} (k_2, k_1) = \frac{1}{F_\alpha(k_1, k_2)}$

    • F분포와 T 분포와의 관계 : 확률변수 T가 자유도 k인 t분포를 따를 때 T ∼ F(1, k)

      2

    • pf )

      $T = \frac{Z}{\sqrt{V/k}}$ 이고 분자 분모가 서로 독립이므로, 양변 제곱하면 Z ∼ χ(1) 이므로 QED

      2

      2

  • 모분산의 비교시 가정 :
    • 두 모집단이 정규분포를 따름.
    • 표본 추출 시 독립적인 단순임의추출 필요
  • 모분산의 비에 관한 100(1 − α)% 신뢰구간 :

    $(\frac{s_1^2}{s_2^2} / F_{\alpha/2} (n_1-1, n_2-1), \frac{s_1^2}{s_2^2} \cdot F_{\alpha/2} (n_2-1, n_1-1))$

  • 오른쪽 단측 검정의 경우$H_1 : 1^2 > _2 ^2$, 유의확률$P = P(F f)$유의수준 _α 의 기각역은

    f ≥ F(n − 1, n − 1)

    α

    1

    2

  • 왼쪽 단측 검정의 경우$H_1 : 1^2 < _2 ^2$, 유의확률$P = P(F f)$유의수준 _α 의 기각역은

    f ≤ 1/F(n − 1, n − 1)

    α

    2

    1

  • 양측검정의 경우의 유의확률은 2P(F ≥ f) 와 2P(F ≤ f) 중 1보다 작은 값을 유의확률로 계산하며, 유의수준 _α_의 기각역은

    f ≥ F(n − 1, n − 1) f ≤ 1/F(n − 1, n − 1)

    α/2

    1

    2

    α/2

    2

    1

댓글을 불러오는 중입니다.