Celenort
Conciencia
게시물 253
오늘 0
전체 0
A site about logging consciousness

[Stats] Lec 05 - 추정과 가설검정

통계적 추론의 개념

  • 추정(estimation) : _N_개 또는 무한의 원소로 된 모집단에서 _n_개의 표본을 추출한 후, 이를 이용하여 모수의 값 추측, 오차한계 제시
  • 점추정 : 모수를 어떠한 하나의 값으로 추정하는 것.
  • 구간추정 : 모수를 추정에 수반된 오차크기가 고려된 신뢰구간으로 추측하는 것
  • 가설검정 : 모집단 현상에 대한 예상이나 주장이 타당한지 표본자료 이용하여 판단하는것

모수의 추정

  • 모수 (population parameter) : 모집단의 특성을 나타내는 수치적 측도, θ_로 표시. (ex) 모평균 _μ, 모비율 p, 모분산 _σ_2
  • 추정량 (estimator) : 모수의 추정을 위해 사용되는 통계량, θ̂ (ex) 표본평균 μ̂,$\hat {\sigma^2}$,
  • 추정값 : 관측치로부터 계산된 모수의 예측값, (ex) 표본평균값 , 표본분산값 s_2, 표본비율값 _p̂
  • 표집오차 : 전체 관측이 아닌 일부 표본만을 관측함으로써 생기는 오차
  • 표준오차 : 추정량이 갖는 분산의 제곱근, 즉, 추정량의 표준편차를 의미

점추정

  • 모평균 μ_에 대한 추정 (모표준편차 _σ_를 알 때 )$= X , −_표준오차 : >$SE(hat mu) = sqrt{Var(bar X) } = frac {sigma} {sqrt{n}} \ bar X - frac {mu} {S/ sqrt{n} } sim t(n-1)$$
  • 모비율 p_에 대한 추정 (_n_개의 랜덤표본에서 그 속성을 갖는 것의 갯수 : _X),
    • 추정량 : 표본비율을 사용

      $p = X n$

    • 표준오차 :

      $SE(\hat p) = \sqrt{Var(\hat p)} = \sqrt{\frac{p(1-p)} n}$

    • 모표준편차의 추정량은 표본표준편차 s, 모분산의 추정량은 표본분산인 s^2 사용

      $\hat {\sigma^2} = \frac {\Sigma {{x_i-\bar X}^2 }} {(n-1)} = s^2$

좋은 추정량과 점추정의 바람직한 성질

  • 추정량중 모수에 가까운 값을 만들어 만들어내는 추정량을 사용해야함
  • 표본만 관측함으로써 생기는 표집오차(sampling error)가 생김
  • 모집단 관심 모수에 대한 추정량을 θ̂_이라 하면, 추정량의 표집오차는 _θ̂ − _θ_가 됨.
  • 이는 변동(variation)과 편향(bias)로 분해됨.
  • 표집오차

    (θ̂ − θ) = θ̂ − E(θ̂) + E(θ̂) − θ

  • 추정량 _θ_의 표집오차 = 변동 + 편향,
  • 변동 :

    θ̂ − E(θ̂) = θ̂ (점추정량) 이 추정량들의 평균값으로부터의 거리

  • 편향

    E(θ̂) − θ = θ̂

    의 평균 표집오차

    E(θ̂ − θ)

    즉 추정량의 평균과 모수의 차

  • 점추정의 바람직한 성질
    1. 비편향성 (Unbiasedness) : 추정량의 기댓값이 모수와 같아짐. 편향의 크기=0
      • 추정값은 항상 틀린 값이지만, 평균적으로는 틀리지 않았으면 좋겠다.
      • 추정량의 기댓값이 모수와 같음 : 비편향성, 비편향추정량. 그렇지 않으면 편향추정량. 다른 말로 편향(biased) = 0
    2. 효율성 (Efficiency) : 추정량의 분산이 작음.
      • 추정값이 표본에 따라 그때그때 다르지 않았으면 (어떤 표본을 뽑아도 비슷한 추정량이 나왔으면) 좋겠다

        E[{θ̂ − E(θ̂)}] 이 추정량의 분산이고 이 값이 작았으면 좋겠다.

        2

      • 추정량의 분산이 작을 수록 효율적 추정량, _θ_에 가깝게 몰려있는 분포가 분산이 작으므로 더 효율적인 추정량이라 함.
      • 편향과 분산을 동시에 줄이는 것이 이상적 but 기술적 한계에 의해 비편향 추정량중 가장 분산이 작은 추정량을 찾음.
      • 최소분산비편향추정량(minimum variance unbiased estimator) : 같은 표본에서 도출된 비편향추정량중에서 분산이 최소가 되는 추정량.
    3. 일치성 (Consistency) : 표본크기 커짐에 따라 점추정량의 값이 모수에 근접함 (확률적 수렴)
      • 현실적으로 표본을 무한으로 할 수는 없지만, 표본을 무한으로 늘리면 모수에 근접한다는 보장이 필요.
      • θ̂ 이 모수 _θ_에 확률적 수렴함. 즉 임의의 양의 상수 _ϵ_에 대하여
        lim_n_ → ∞Pr( θ̂ − θ  > ϵ) = 0

        으로 정의됨. 다시 말하면

        Prn → ∞(θ̂ = θ) → 1

        이면 일치추정량

구간추정

  • 표본평균의 분포는 근사적 정규분포를 따르고, 이러한 산포에 관한 정보가 필요함. (오차의 크기가 반영된 구간, 신뢰구간)
  • 정규분포의 성질로부터 성립하는 것.

    $1-alpha = Pr(-z_{alpha/2} < Z < z_{alpha/2}) = Pr(mu - z_{alpha/2} frac sigma {sqrt n} < bar X <mu + z_{alpha/2} frac sigma {sqrt n})$

  • 마지막 식을 정리하면, μ

    $(\bar X - z_{\alpha/2} \frac \sigma {\sqrt n} ,\ \ \bar X + z_{\alpha/2} \frac \sigma {\sqrt n} )$ 이고,

  • 표본평균을 구하는 작업을 무한히 반복한다면, 그들 중 약 (1 − α) × 100%의 표본에 대한 신뢰구간에 모평균 _μ_가 속할 것이다.
  • 신뢰구간에 μ_가 속할 확률이 (1 − _α) × 100%이 아니라 μ_는 고정값, 무한히 많은 신뢰구간중 _μ 가 신뢰구간안에 들어간 것의 비율이 (1 − α) × 100% 인 것
  • 통계량의 분포가 대칭인 경우 - 모평균에 대한 신뢰량은 ( ± d) 가 가장 효율적, 즉 표본평균 중심으로 같은거리 가감하는 것이 효율적
  • 신뢰구간이 표본평균 중심 비대칭이면 같은 신뢰수준이긴 하나 구간의 길이가 길어짐. 그래서 같은거리 가감하는 대칭이 좋음.
  • 통계량 분포가 대칭이 아닌 경우 : 카이제곱분포

신뢰구간

  • 신뢰구간 (CI) : 구간추정 통해 얻어지는 구간, 신뢰수준에 따라 크기가 변동.
  • 신뢰수준 : 여러 번 구한 신뢰구간 중 추정하고자 하는 모수가 표함된 신뢰구간의 비율.
  • n_개의 표본으로 표본평균 _X̄_를 구하는 작업을 반복하면, 그렇게 만들어진 신뢰구간 중 100(1 − _α)% 의 표본에 대해 모평균 _μ_가 신뢰구간에 속함. 그 비율이 신뢰수준.
  • 100(1 − α)% 신뢰구간 :

    $(\bar X - z_{\alpha/2} \times \frac \sigma {\sqrt n} , \bar X + z_{\alpha/2} \times \frac \sigma {\sqrt n } )$

    X̄ ± 양쪽팔구간

  • 100(1 − α)% 오차한계

    $z_{\alpha/2} SE(\hat \mu) = z_{\alpha/2} \frac {\sigma} {\sqrt n}$

    (한쪽 팔)

  • 신뢰구간의 길이 : 2 × 한쪽 팔

_σ_가 미지인 정규모집단에서 모평균 _μ_의 신뢰구간.

  • 모표준편차가 미지인 정규모집단 N(μ, σ_2)에서 _n 크기 랜덤표본 추출,

    $\bar X - \frac \mu {S/ \sqrt{n}} \sim t(n-1)$

    이고,

  • 표본분포를 정리하여, μ

    $(\bar X - t_{\alpha/2} \frac{(n-1) s} {\sqrt n} , \bar X+t_{\alpha/2} \frac{(n-1) s} {\sqrt n} )$

    이 100(1 − α)%에 대한 모평균 _μ_의 신뢰구간

신뢰구간 정리

  • 가정사항 : 정규모집단에서 크기 _n_인 랜덤표본 추출 / 정규분포 아니라면 _n_의 수(뽑는 표본의 수가 충분히 커야함)
  • 모평균 μ_에 대한 100(1 − _α)% 신뢰구간은
    • sigma를 알 경우 X +- z_alpha/2 sigma/sqrt(n) 이고,
    • sigma를 모를 경우 X +- t_alpha/2 (n-1) sigma/sqrt(n)
  • 단 sigma를 모르지만 n>=30이면 CLT에 의해서 정규분포 따른다고 할 수 있고, sigma를 알 경우와 동일하게 해도 됨.
  • 즉 n이 커지면 sigma를 몰라도 s가 sigma에 근접, t분포는 z분포에 수렴하게 됨.
  • Xi가 정규분포 따르지 않더라도 표본수가 크면 중심극한정리에 의해 X의 분포가 정규분포에 근접함. 표본수 클 때는 모집단 분포에 딱히 상관 없지만, 표본수 작으면 대칭이고 정규분포와 유사해야지 X도 정규분포를 따르게 된다.
  • 신뢰수준은 높을 수록, 구간의 크기는 작을 수록 바람직하나, 신뢰수준과 구간 크기는 서로 상충.
  • 주로 문제에 따라 신뢰수준 고정, 신뢰수준 만족하면서 구간 가장 작게하는 신뢰구간 (2 * z_alpha/2 sigma/sqrt n) 을 도출.
  • 신뢰구간 작게하는 법 : 분산이 작은 추정량 이용, 표본 수를 늘림

모비율의 추정 (신뢰구간)

  • 모비율 p_이고 _n_인 랜덤표본에서 그 속성갖는 것 갯수 _X 이 때 X ∼ B(n, p)
  • 모비율 _p_의 추정량 : 표본비율

    $\hat p = \frac X n$

  • 표본비율 _p̂_의 기댓값 :

    $E(\hat p) = \frac {E(X)} n = p$

    (비편향추정량)

  • 표본비율 _p̂_의 분산 Var(p) = Var(X) / n^2 = p(1-p) / n, SE(p) = sqrt(Var(p) = sqrt( p(1-p)/n )
  • p의 표준오차의 추정 모비율 p를 모르니까 p을 사용, SE(p) hat = sqrt(p(1-p) / n)
  • n이 충분히 크니까 clt 사용할 수 있고, 이항분포의 정규근사에 의해 X .~ N(np, np(1-p)) 가 가까워짐. 이를 표준화하면, X-np/sqrt(np(1-p) ) .~ N(0,1) 이됨.
  • 같은 방법으로 E(p) = p이고, Var(p) _ hat = sqrt(p(1-p)/n)이 되므로, p-p/sqrt( p(1-p)/n) .~ N(0,1) 이라고 할 수 있음.
  • 같은 방법으로 정리하면, 100(1-alpha) % 신뢰구간 (모비율 p에 대해서) (p - z_alpha/2 sqrt(p(1-p)/n) , p + z_alpha/2 sqrt(p(1-p)/n) 이라고 할 수 있음.
  • 100(1-alpha) % 오차한계 = z_alpha/2 SE(p)_ hat = z_alpha/2 sqrt(p(1-p) /n )
  • 표본크기 n이 크다는 기준은 np>=5, n(1-p) >=5 일때.

모평균의 추정에서 표본크기의 결정

  • 100(1-alpha) % 신뢰수준으로 오차한계 d 이하로, 혹은 신뢰구간의 길이 2d 이하로 하기 위한 표본의 크기,
  • sigma 알면 : n>=(z_alpha/2 sigma/d)^2
  • sigma 모르면 : n>= (t_alpha/2(n-1) s /d)^2

모비율의 추정에서 표본크기의 결정

  • 모비율의 추정에서 100(1-alpha) % 오차한계를 d 이하로 하는 것이 요구되면,
  • 모비율의 사전 추정값 (p_)이 주어지면, n>=p_ (1-p*)(z_alpha/2 /d)^2,
  • 모비율의 사전 추정값 (p*) 가 없으면, n>=1/4 (z_alpha/2 /d)^2

유의성 검증과 가설 검정

가설 검정

  • 가설 검정 : 모집단의 어떤 현상에 대한 예상 or 주장이 옳은지 틀린지 표본자료 이용하여 판단.
  • 통계적 가설 : 모집단의 특성 or 모수에 대한 대립되는 두 주장을 통해 통계적으로 다루기 편리하게 정리한 것.
  • 귀무가설 (null hypothesis, H_0) : 모집단의 모수를 하나의 값이나 구간으로 표시. (ex) H_0 : mu = 3
  • 대립가설 (alternative hypothesis, H_1) : 귀무가설에서 제시하는 모수의 값을 제외한 나머지 영역에서 모수의 값을 정의 (ex) H_1 : mu =/=3
  • 현재 참이라고 여겨지는 가설이 귀무가설 (ex) 무죄추정의 원칙 - 귀무가설 : 무죄이다, 대립가설 : 피고는 유죄이다.
  • 표본이나 검정통계량이 귀무가설의 주장 뒷받침 못하면 그 때 귀무가설 기각하게 됨.

가설 설정 규칙

  1. 연구자가 통계적으로 증명하고 싶은 것을 대립가설로 상정
  2. 귀무가설은 모수를 특정값으로 표현
  3. 양측검정 / 단측검정이 있음, 대립가설이 비교하는 값의 어느쪽을 고려하느냐에 따라서.
    • 귀무가설에서 반드시 등호가 포함된다.
    • 문제에서 양측검정, 단측검정 중 무엇 사용할지는 분석자가 결정.
    • H_0 하에서 실제 관측된 증거보다 더 H_0에 반대되는 증거가 나올 확률 -> 이 확률이 작다는 것을 통해 귀무가설을 기각할 수 있음.

검증통계량

  • 검증통계량(test statistics) : 검증에 사용하기 위해 표본자료에서 구한 통계량. 일반적으로 검정하려는 모수의 점추정량 or 점추정량을 표준화한 것.
  • 모평균에 대한 검정에서 검정모수 mu에 대한 검정통계량 z 는 X를 표준화한 것과 같으며, 이는 각각 N(0,1), t(n-1)을 따르게 됨. (sigma를 알때/모를때)

P값과 기각역

  • 유의확률 혹은 P값 (significance probability or P-value) : 귀무가설이 사실일 때 검증통계량이 실제 관측값보다 더 대립가설 지지 방향으로 치우칠 확률
  • 유의수준 : H_0에 대한 반증에 강도에 대해 유의수준을 정해좋고 이를 유의확률과 비교. 주로 alpha로 표시하고 0.05, 0.01을 사용
  • p값에 의한 판정 ; -> z값(검증통계량) 에 의해 H_0 참일때 이보다 더 H_1을 지지하는 확률인 p값을 구함. 그걸 alpha랑 비교해서 p값>=alpha 이면 H_0 기각 못함 but p값<alpha 면 H_0 기각 -> p값이 유의확률보다 작다 -> 이 값보다 더 심하게 나올 가능성이 작다 -> 이 값이 충분히 H_0에서 벗어난 값이다 -> H_0 기각
  • 단측, 양측검정에 따라 p값이 다름
  • 기각역(rejection region) : 지정된 수준(alpha) 에서 H_0가 사실이 아니라고 기각하게 되는 영역 (alpha값에 의해 결정)
  • 유의수준 alpha=0.05, alpha=0.01에 대응하는 백분위수, z0.05 = 1.645 z0.025 = 1.96 z0.01 = 2.326 z0.005=2.576 (95퍼 단측/양측이 1.645 1.96 , 99퍼 단측/양측 이 2.326, 2.576)
  • 기각역에 의한 판정 : 기각역을 alpha에 따라 먼저 정하고 검증통계량이 기각역에 속하면 유의수준 alpha에서 귀무가설 H0 기각, 속하지 않으면 기각할 수 없음.

가설검정의 단계 요약

  1. 모집단의 특성에 대한 주장, 가설 설정 (H_0, H_1 설정)
  2. 검정의 유의수준 alpha 정함
  3. 표본추출후 귀무가설 하에서 검정통계량 계산
  4. 검정통계량에 대한 P값을 구하여 P값<alpha면 H_0기각 / 기각역 정하고 기각역에 속하면 H_0기각

검정 오류

  • 검증 오류(test error) : 가설을 채택하거나 기각할 때 확률적으로 틀릴 가능성
  • 제 1종 오류(type 1 error, alpha) (= 검정의 유의 수준)
    • P(reject H_0 H_0 is true) = alpha
  • 제 2종 오류(type 2 error, beta) : 대립가설이 사실인데 귀무가설 기각 못하는 경우.
    • P(failed to reject H_0 H_0 is false) = beta
  • 귀무가설이 사실일 때 이를 기각하지 않을 확률 (1-alpha)
  • 검정력(power of the test) : 대립가설 하의 평균값 mu = mu1 이 사실인데 H_0를 기각할 확률 (=1-beta)
  • H_0와 H_1의 정규분포 곡선을 그려보았을 때 두 곡선 사이의 점 c를 임계점으로 H_0 에서 c 보다 꼬리쪽 부분이 alpha, H_1에서 c보다 꼬리쪽 부분이 beta이다. alpha, beta를 최소로 하는 기각역을 구하는 것이 우선인데, alpha, beta를 동시에 작게만들 수는 없음.
  • 실제로는 주어진 alpha를 만족시키는 기각역 중 beta를 최소로 하는 기각역 즉 검정력이 큰 기각역을 선택. 표본수가 커지면 분산 작아지고 퍼진 것이 평균중심으로 모이므로, 고정된 alpha에 대해서 beta가 작아지고 검정력(1-beta)가 커짐.

모비율의 가설검정 (표본크기가 작은 경우)

  • H_0 : p=p_0, H_1 : p>p_0
  • 모비율 p가 특정 속성의 비율일 때 X가 클 수록 대립가설 옳다는 증거가 강해짐.
  • P = P(X>=x), X ~ B(n, p_0)
  • 양측검정일 경우 유의확률 P = P(X>=x), x>=np_0, X ~ B(n,p_0), 반대쪽도.

모비율의 가설검정 (표본크기가 큰 경우)

  • 모비율의 가설검정은 p과 p_0의 차이에 따라 달라지고, H_0가 사실일 때 이항분포의 정규근사를 이용하여 검증통계량 Z에 의한 유의확률을 구하든, alpha에 따른 기각역에 Z가 속하는지를 보든 하면됨 동일하게.
  • 표본크기 크다 : np_0>=5, n(1-p_0)>=5
댓글을 불러오는 중입니다.