[Stats] Lec 05 - 추정과 가설검정
통계적 추론의 개념
- 추정(estimation) : _N_개 또는 무한의 원소로 된 모집단에서 _n_개의 표본을 추출한 후, 이를 이용하여 모수의 값 추측, 오차한계 제시
- 점추정 : 모수를 어떠한 하나의 값으로 추정하는 것.
- 구간추정 : 모수를 추정에 수반된 오차크기가 고려된 신뢰구간으로 추측하는 것
- 가설검정 : 모집단 현상에 대한 예상이나 주장이 타당한지 표본자료 이용하여 판단하는것
모수의 추정
- 모수 (population parameter) : 모집단의 특성을 나타내는 수치적 측도, θ_로 표시. (ex) 모평균 _μ, 모비율 p, 모분산 _σ_2
- 추정량 (estimator) : 모수의 추정을 위해 사용되는 통계량, θ̂ (ex) 표본평균 μ̂,$\hat {\sigma^2}$, p̂
- 추정값 : 관측치로부터 계산된 모수의 예측값, (ex) 표본평균값 x̄ , 표본분산값 s_2, 표본비율값 _p̂
- 표집오차 : 전체 관측이 아닌 일부 표본만을 관측함으로써 생기는 오차
- 표준오차 : 추정량이 갖는 분산의 제곱근, 즉, 추정량의 표준편차를 의미
점추정
- 모평균 μ_에 대한 추정 (모표준편차 _σ_를 알 때 )$= X , −_표준오차 : >$SE(hat mu) = sqrt{Var(bar X) } = frac {sigma} {sqrt{n}} \ bar X - frac {mu} {S/ sqrt{n} } sim t(n-1)$$
- 모비율 p_에 대한 추정 (_n_개의 랜덤표본에서 그 속성을 갖는 것의 갯수 : _X),
- 추정량 : 표본비율을 사용
$p = X n$
- 표준오차 :
$SE(\hat p) = \sqrt{Var(\hat p)} = \sqrt{\frac{p(1-p)} n}$
- 모표준편차의 추정량은 표본표준편차 s, 모분산의 추정량은 표본분산인 s^2 사용
$\hat {\sigma^2} = \frac {\Sigma {{x_i-\bar X}^2 }} {(n-1)} = s^2$
- 추정량 : 표본비율을 사용
좋은 추정량과 점추정의 바람직한 성질
- 추정량중 모수에 가까운 값을 만들어 만들어내는 추정량을 사용해야함
- 표본만 관측함으로써 생기는 표집오차(sampling error)가 생김
- 모집단 관심 모수에 대한 추정량을 θ̂_이라 하면, 추정량의 표집오차는 _θ̂ − _θ_가 됨.
- 이는 변동(variation)과 편향(bias)로 분해됨.
- 표집오차
(θ̂ − θ) = θ̂ − E(θ̂) + E(θ̂) − θ
- 추정량 _θ_의 표집오차 = 변동 + 편향,
- 변동 :
θ̂ − E(θ̂) = θ̂ (점추정량) 이 추정량들의 평균값으로부터의 거리
- 편향
E(θ̂) − θ = θ̂
의 평균 표집오차
E(θ̂ − θ)
즉 추정량의 평균과 모수의 차
- 점추정의 바람직한 성질
- 비편향성 (Unbiasedness) : 추정량의 기댓값이 모수와 같아짐. 편향의 크기=0
- 추정값은 항상 틀린 값이지만, 평균적으로는 틀리지 않았으면 좋겠다.
- 추정량의 기댓값이 모수와 같음 : 비편향성, 비편향추정량. 그렇지 않으면 편향추정량. 다른 말로 편향(biased) = 0
- 효율성 (Efficiency) : 추정량의 분산이 작음.
- 추정값이 표본에 따라 그때그때 다르지 않았으면 (어떤 표본을 뽑아도 비슷한 추정량이 나왔으면) 좋겠다
E[{θ̂ − E(θ̂)}] 이 추정량의 분산이고 이 값이 작았으면 좋겠다.
2
- 추정량의 분산이 작을 수록 효율적 추정량, _θ_에 가깝게 몰려있는 분포가 분산이 작으므로 더 효율적인 추정량이라 함.
- 편향과 분산을 동시에 줄이는 것이 이상적 but 기술적 한계에 의해 비편향 추정량중 가장 분산이 작은 추정량을 찾음.
- 최소분산비편향추정량(minimum variance unbiased estimator) : 같은 표본에서 도출된 비편향추정량중에서 분산이 최소가 되는 추정량.
- 추정값이 표본에 따라 그때그때 다르지 않았으면 (어떤 표본을 뽑아도 비슷한 추정량이 나왔으면) 좋겠다
- 일치성 (Consistency) : 표본크기 커짐에 따라 점추정량의 값이 모수에 근접함 (확률적 수렴)
- 현실적으로 표본을 무한으로 할 수는 없지만, 표본을 무한으로 늘리면 모수에 근접한다는 보장이 필요.
- θ̂ 이 모수 _θ_에 확률적 수렴함. 즉 임의의 양의 상수 _ϵ_에 대하여
lim_n_ → ∞Pr( θ̂ − θ > ϵ) = 0 으로 정의됨. 다시 말하면
Prn → ∞(θ̂ = θ) → 1
이면 일치추정량
- 비편향성 (Unbiasedness) : 추정량의 기댓값이 모수와 같아짐. 편향의 크기=0
구간추정
- 표본평균의 분포는 근사적 정규분포를 따르고, 이러한 산포에 관한 정보가 필요함. (오차의 크기가 반영된 구간, 신뢰구간)
- 정규분포의 성질로부터 성립하는 것.
$1-alpha = Pr(-z_{alpha/2} < Z < z_{alpha/2}) = Pr(mu - z_{alpha/2} frac sigma {sqrt n} < bar X <mu + z_{alpha/2} frac sigma {sqrt n})$
- 마지막 식을 정리하면, μ 가
$(\bar X - z_{\alpha/2} \frac \sigma {\sqrt n} ,\ \ \bar X + z_{\alpha/2} \frac \sigma {\sqrt n} )$ 이고,
- 표본평균을 구하는 작업을 무한히 반복한다면, 그들 중 약 (1 − α) × 100%의 표본에 대한 신뢰구간에 모평균 _μ_가 속할 것이다.
- 신뢰구간에 μ_가 속할 확률이 (1 − _α) × 100%이 아니라 μ_는 고정값, 무한히 많은 신뢰구간중 _μ 가 신뢰구간안에 들어간 것의 비율이 (1 − α) × 100% 인 것
- 통계량의 분포가 대칭인 경우 - 모평균에 대한 신뢰량은 (X̄ ± d) 가 가장 효율적, 즉 표본평균 중심으로 같은거리 가감하는 것이 효율적
- 신뢰구간이 표본평균 중심 비대칭이면 같은 신뢰수준이긴 하나 구간의 길이가 길어짐. 그래서 같은거리 가감하는 대칭이 좋음.
- 통계량 분포가 대칭이 아닌 경우 : 카이제곱분포
신뢰구간
- 신뢰구간 (CI) : 구간추정 통해 얻어지는 구간, 신뢰수준에 따라 크기가 변동.
- 신뢰수준 : 여러 번 구한 신뢰구간 중 추정하고자 하는 모수가 표함된 신뢰구간의 비율.
- n_개의 표본으로 표본평균 _X̄_를 구하는 작업을 반복하면, 그렇게 만들어진 신뢰구간 중 100(1 − _α)% 의 표본에 대해 모평균 _μ_가 신뢰구간에 속함. 그 비율이 신뢰수준.
- 100(1 − α)% 신뢰구간 :
$(\bar X - z_{\alpha/2} \times \frac \sigma {\sqrt n} , \bar X + z_{\alpha/2} \times \frac \sigma {\sqrt n } )$
X̄ ± 양쪽팔구간
- 100(1 − α)% 오차한계
$z_{\alpha/2} SE(\hat \mu) = z_{\alpha/2} \frac {\sigma} {\sqrt n}$
(한쪽 팔)
- 신뢰구간의 길이 : 2 × 한쪽 팔
_σ_가 미지인 정규모집단에서 모평균 _μ_의 신뢰구간.
- 모표준편차가 미지인 정규모집단 N(μ, σ_2)에서 _n 크기 랜덤표본 추출,
$\bar X - \frac \mu {S/ \sqrt{n}} \sim t(n-1)$
이고,
- 표본분포를 정리하여, μ 가
$(\bar X - t_{\alpha/2} \frac{(n-1) s} {\sqrt n} , \bar X+t_{\alpha/2} \frac{(n-1) s} {\sqrt n} )$
이 100(1 − α)%에 대한 모평균 _μ_의 신뢰구간
신뢰구간 정리
- 가정사항 : 정규모집단에서 크기 _n_인 랜덤표본 추출 / 정규분포 아니라면 _n_의 수(뽑는 표본의 수가 충분히 커야함)
- 모평균 μ_에 대한 100(1 − _α)% 신뢰구간은
- sigma를 알 경우 X +- z_alpha/2 sigma/sqrt(n) 이고,
- sigma를 모를 경우 X +- t_alpha/2 (n-1) sigma/sqrt(n)
- 단 sigma를 모르지만 n>=30이면 CLT에 의해서 정규분포 따른다고 할 수 있고, sigma를 알 경우와 동일하게 해도 됨.
- 즉 n이 커지면 sigma를 몰라도 s가 sigma에 근접, t분포는 z분포에 수렴하게 됨.
- Xi가 정규분포 따르지 않더라도 표본수가 크면 중심극한정리에 의해 X의 분포가 정규분포에 근접함. 표본수 클 때는 모집단 분포에 딱히 상관 없지만, 표본수 작으면 대칭이고 정규분포와 유사해야지 X도 정규분포를 따르게 된다.
- 신뢰수준은 높을 수록, 구간의 크기는 작을 수록 바람직하나, 신뢰수준과 구간 크기는 서로 상충.
- 주로 문제에 따라 신뢰수준 고정, 신뢰수준 만족하면서 구간 가장 작게하는 신뢰구간 (2 * z_alpha/2 sigma/sqrt n) 을 도출.
- 신뢰구간 작게하는 법 : 분산이 작은 추정량 이용, 표본 수를 늘림
모비율의 추정 (신뢰구간)
- 모비율 p_이고 _n_인 랜덤표본에서 그 속성갖는 것 갯수 _X 이 때 X ∼ B(n, p)
- 모비율 _p_의 추정량 :
표본비율
$\hat p = \frac X n$
- 표본비율 _p̂_의 기댓값 :
$E(\hat p) = \frac {E(X)} n = p$
(비편향추정량)
- 표본비율 _p̂_의 분산 Var(p) = Var(X) / n^2 = p(1-p) / n, SE(p) = sqrt(Var(p) = sqrt( p(1-p)/n )
- p의 표준오차의 추정 모비율 p를 모르니까 p을 사용, SE(p) hat = sqrt(p(1-p) / n)
- n이 충분히 크니까 clt 사용할 수 있고, 이항분포의 정규근사에 의해 X .~ N(np, np(1-p)) 가 가까워짐. 이를 표준화하면, X-np/sqrt(np(1-p) ) .~ N(0,1) 이됨.
- 같은 방법으로 E(p) = p이고, Var(p) _ hat = sqrt(p(1-p)/n)이 되므로, p-p/sqrt( p(1-p)/n) .~ N(0,1) 이라고 할 수 있음.
- 같은 방법으로 정리하면, 100(1-alpha) % 신뢰구간 (모비율 p에 대해서) (p - z_alpha/2 sqrt(p(1-p)/n) , p + z_alpha/2 sqrt(p(1-p)/n) 이라고 할 수 있음.
- 100(1-alpha) % 오차한계 = z_alpha/2 SE(p)_ hat = z_alpha/2 sqrt(p(1-p) /n )
- 표본크기 n이 크다는 기준은 np>=5, n(1-p) >=5 일때.
모평균의 추정에서 표본크기의 결정
- 100(1-alpha) % 신뢰수준으로 오차한계 d 이하로, 혹은 신뢰구간의 길이 2d 이하로 하기 위한 표본의 크기,
- sigma 알면 : n>=(z_alpha/2 sigma/d)^2
- sigma 모르면 : n>= (t_alpha/2(n-1) s /d)^2
모비율의 추정에서 표본크기의 결정
- 모비율의 추정에서 100(1-alpha) % 오차한계를 d 이하로 하는 것이 요구되면,
- 모비율의 사전 추정값 (p_)이 주어지면, n>=p_ (1-p*)(z_alpha/2 /d)^2,
- 모비율의 사전 추정값 (p*) 가 없으면, n>=1/4 (z_alpha/2 /d)^2
유의성 검증과 가설 검정
가설 검정
- 가설 검정 : 모집단의 어떤 현상에 대한 예상 or 주장이 옳은지 틀린지 표본자료 이용하여 판단.
- 통계적 가설 : 모집단의 특성 or 모수에 대한 대립되는 두 주장을 통해 통계적으로 다루기 편리하게 정리한 것.
- 귀무가설 (null hypothesis, H_0) : 모집단의 모수를 하나의 값이나 구간으로 표시. (ex) H_0 : mu = 3
- 대립가설 (alternative hypothesis, H_1) : 귀무가설에서 제시하는 모수의 값을 제외한 나머지 영역에서 모수의 값을 정의 (ex) H_1 : mu =/=3
- 현재 참이라고 여겨지는 가설이 귀무가설 (ex) 무죄추정의 원칙 - 귀무가설 : 무죄이다, 대립가설 : 피고는 유죄이다.
- 표본이나 검정통계량이 귀무가설의 주장 뒷받침 못하면 그 때 귀무가설 기각하게 됨.
가설 설정 규칙
- 연구자가 통계적으로 증명하고 싶은 것을 대립가설로 상정
- 귀무가설은 모수를 특정값으로 표현
- 양측검정 / 단측검정이 있음, 대립가설이 비교하는 값의 어느쪽을 고려하느냐에 따라서.
- 귀무가설에서 반드시 등호가 포함된다.
- 문제에서 양측검정, 단측검정 중 무엇 사용할지는 분석자가 결정.
- H_0 하에서 실제 관측된 증거보다 더 H_0에 반대되는 증거가 나올 확률 -> 이 확률이 작다는 것을 통해 귀무가설을 기각할 수 있음.
검증통계량
- 검증통계량(test statistics) : 검증에 사용하기 위해 표본자료에서 구한 통계량. 일반적으로 검정하려는 모수의 점추정량 or 점추정량을 표준화한 것.
- 모평균에 대한 검정에서 검정모수 mu에 대한 검정통계량 z 는 X를 표준화한 것과 같으며, 이는 각각 N(0,1), t(n-1)을 따르게 됨. (sigma를 알때/모를때)
P값과 기각역
- 유의확률 혹은 P값 (significance probability or P-value) : 귀무가설이 사실일 때 검증통계량이 실제 관측값보다 더 대립가설 지지 방향으로 치우칠 확률
- 유의수준 : H_0에 대한 반증에 강도에 대해 유의수준을 정해좋고 이를 유의확률과 비교. 주로 alpha로 표시하고 0.05, 0.01을 사용
- p값에 의한 판정 ; -> z값(검증통계량) 에 의해 H_0 참일때 이보다 더 H_1을 지지하는 확률인 p값을 구함. 그걸 alpha랑 비교해서 p값>=alpha 이면 H_0 기각 못함 but p값<alpha 면 H_0 기각 -> p값이 유의확률보다 작다 -> 이 값보다 더 심하게 나올 가능성이 작다 -> 이 값이 충분히 H_0에서 벗어난 값이다 -> H_0 기각
- 단측, 양측검정에 따라 p값이 다름
- 기각역(rejection region) : 지정된 수준(alpha) 에서 H_0가 사실이 아니라고 기각하게 되는 영역 (alpha값에 의해 결정)
- 유의수준 alpha=0.05, alpha=0.01에 대응하는 백분위수, z0.05 = 1.645 z0.025 = 1.96 z0.01 = 2.326 z0.005=2.576 (95퍼 단측/양측이 1.645 1.96 , 99퍼 단측/양측 이 2.326, 2.576)
- 기각역에 의한 판정 : 기각역을 alpha에 따라 먼저 정하고 검증통계량이 기각역에 속하면 유의수준 alpha에서 귀무가설 H0 기각, 속하지 않으면 기각할 수 없음.
가설검정의 단계 요약
- 모집단의 특성에 대한 주장, 가설 설정 (H_0, H_1 설정)
- 검정의 유의수준 alpha 정함
- 표본추출후 귀무가설 하에서 검정통계량 계산
- 검정통계량에 대한 P값을 구하여 P값<alpha면 H_0기각 / 기각역 정하고 기각역에 속하면 H_0기각
검정 오류
- 검증 오류(test error) : 가설을 채택하거나 기각할 때 확률적으로 틀릴 가능성
- 제 1종 오류(type 1 error, alpha) (= 검정의 유의 수준)
-
P(reject H_0 H_0 is true) = alpha
-
- 제 2종 오류(type 2 error, beta) : 대립가설이 사실인데 귀무가설 기각 못하는 경우.
-
P(failed to reject H_0 H_0 is false) = beta
-
- 귀무가설이 사실일 때 이를 기각하지 않을 확률 (1-alpha)
- 검정력(power of the test) : 대립가설 하의 평균값 mu = mu1 이 사실인데 H_0를 기각할 확률 (=1-beta)
- H_0와 H_1의 정규분포 곡선을 그려보았을 때 두 곡선 사이의 점 c를 임계점으로 H_0 에서 c 보다 꼬리쪽 부분이 alpha, H_1에서 c보다 꼬리쪽 부분이 beta이다. alpha, beta를 최소로 하는 기각역을 구하는 것이 우선인데, alpha, beta를 동시에 작게만들 수는 없음.
- 실제로는 주어진 alpha를 만족시키는 기각역 중 beta를 최소로 하는 기각역 즉 검정력이 큰 기각역을 선택. 표본수가 커지면 분산 작아지고 퍼진 것이 평균중심으로 모이므로, 고정된 alpha에 대해서 beta가 작아지고 검정력(1-beta)가 커짐.
모비율의 가설검정 (표본크기가 작은 경우)
- H_0 : p=p_0, H_1 : p>p_0
- 모비율 p가 특정 속성의 비율일 때 X가 클 수록 대립가설 옳다는 증거가 강해짐.
- P = P(X>=x), X ~ B(n, p_0)
- 양측검정일 경우 유의확률 P = P(X>=x), x>=np_0, X ~ B(n,p_0), 반대쪽도.
모비율의 가설검정 (표본크기가 큰 경우)
- 모비율의 가설검정은 p과 p_0의 차이에 따라 달라지고, H_0가 사실일 때 이항분포의 정규근사를 이용하여 검증통계량 Z에 의한 유의확률을 구하든, alpha에 따른 기각역에 Z가 속하는지를 보든 하면됨 동일하게.
- 표본크기 크다 : np_0>=5, n(1-p_0)>=5