[Stats] Lec 05 - 추정과 가설검정

통계적 추론의 개념

추정(estimation) : _N_개 또는 무한의 원소로 된 모집단에서 _n_개의 표본을 추출한 후, 이를 이용하여 모수의 값 추측, 오차한계 제시
점추정 : 모수를 어떠한 하나의 값으로 추정하는 것.
구간추정 : 모수를 추정에 수반된 오차크기가 고려된 신뢰구간으로 추측하는 것
가설검정 : 모집단 현상에 대한 예상이나 주장이 타당한지 표본자료 이용하여 판단하는것

모수의 추정

모수 (population parameter) : 모집단의 특성을 나타내는 수치적 측도, θ_로 표시. (ex) 모평균 _μ, 모비율 p, 모분산 _σ_2
추정량 (estimator) : 모수의 추정을 위해 사용되는 통계량, θ̂ (ex) 표본평균 μ̂,$\hat {\sigma^2}$, p̂
추정값 : 관측치로부터 계산된 모수의 예측값, (ex) 표본평균값 x̄ , 표본분산값 s_2, 표본비율값 _p̂
표집오차 : 전체 관측이 아닌 일부 표본만을 관측함으로써 생기는 오차
표준오차 : 추정량이 갖는 분산의 제곱근, 즉, 추정량의 표준편차를 의미

점추정

모평균 μ_에 대한 추정 (모표준편차 _σ_를 알 때 )$= X , −_표준오차 : >$SE(hat mu) = sqrt{Var(bar X) } = frac {sigma} {sqrt{n}} \ bar X - frac {mu} {S/ sqrt{n} } sim t(n-1)$$
모비율 p_에 대한 추정 (_n_개의 랜덤표본에서 그 속성을 갖는 것의 갯수 : _X),
- 추정량 : 표본비율을 사용
  
  $p = X n$
- 표준오차 :
  
  $SE(\hat p) = \sqrt{Var(\hat p)} = \sqrt{\frac{p(1-p)} n}$
- 모표준편차의 추정량은 표본표준편차 s, 모분산의 추정량은 표본분산인 s^2 사용
  
  $\hat {\sigma^2} = \frac {\Sigma {{x_i-\bar X}^2 }} {(n-1)} = s^2$

좋은 추정량과 점추정의 바람직한 성질

추정량중 모수에 가까운 값을 만들어 만들어내는 추정량을 사용해야함
표본만 관측함으로써 생기는 표집오차(sampling error)가 생김
모집단 관심 모수에 대한 추정량을 θ̂_이라 하면, 추정량의 표집오차는 _θ̂ − _θ_가 됨.
이는 변동(variation)과 편향(bias)로 분해됨.
표집오차

(θ̂ − θ) = θ̂ − E(θ̂) + E(θ̂) − θ
추정량 _θ_의 표집오차 = 변동 + 편향,
변동 :

θ̂ − E(θ̂) = θ̂ (점추정량) 이 추정량들의 평균값으로부터의 거리
편향

E(θ̂) − θ = θ̂

의 평균 표집오차

E(θ̂ − θ)

즉 추정량의 평균과 모수의 차

점추정의 바람직한 성질

비편향성 (Unbiasedness) : 추정량의 기댓값이 모수와 같아짐. 편향의 크기=0
- 추정값은 항상 틀린 값이지만, 평균적으로는 틀리지 않았으면 좋겠다.
- 추정량의 기댓값이 모수와 같음 : 비편향성, 비편향추정량. 그렇지 않으면 편향추정량. 다른 말로 편향(biased) = 0
효율성 (Efficiency) : 추정량의 분산이 작음.
- 추정값이 표본에 따라 그때그때 다르지 않았으면 (어떤 표본을 뽑아도 비슷한 추정량이 나왔으면) 좋겠다
  
  E[{θ̂ − E(θ̂)}] 이 추정량의 분산이고 이 값이 작았으면 좋겠다.
  
  2
- 추정량의 분산이 작을 수록 효율적 추정량, _θ_에 가깝게 몰려있는 분포가 분산이 작으므로 더 효율적인 추정량이라 함.
- 편향과 분산을 동시에 줄이는 것이 이상적 but 기술적 한계에 의해 비편향 추정량중 가장 분산이 작은 추정량을 찾음.
- 최소분산비편향추정량(minimum variance unbiased estimator) : 같은 표본에서 도출된 비편향추정량중에서 분산이 최소가 되는 추정량.

일치성 (Consistency) : 표본크기 커짐에 따라 점추정량의 값이 모수에 근접함 (확률적 수렴)

현실적으로 표본을 무한으로 할 수는 없지만, 표본을 무한으로 늘리면 모수에 근접한다는 보장이 필요.

θ̂ 이 모수 _θ_에 확률적 수렴함. 즉 임의의 양의 상수 _ϵ_에 대하여

lim_n_ → ∞Pr( θ̂ − θ > ϵ) = 0

으로 정의됨. 다시 말하면

Prn → ∞(θ̂ = θ) → 1

이면 일치추정량

구간추정

표본평균의 분포는 근사적 정규분포를 따르고, 이러한 산포에 관한 정보가 필요함. (오차의 크기가 반영된 구간, 신뢰구간)
정규분포의 성질로부터 성립하는 것.

$1-alpha = Pr(-z_{alpha/2} < Z < z_{alpha/2}) = Pr(mu - z_{alpha/2} frac sigma {sqrt n} < bar X <mu + z_{alpha/2} frac sigma {sqrt n})$
마지막 식을 정리하면, μ 가

$(\bar X - z_{\alpha/2} \frac \sigma {\sqrt n} ,\ \ \bar X + z_{\alpha/2} \frac \sigma {\sqrt n} )$ 이고,
표본평균을 구하는 작업을 무한히 반복한다면, 그들 중 약 (1 − α) × 100%의 표본에 대한 신뢰구간에 모평균 _μ_가 속할 것이다.
신뢰구간에 μ_가 속할 확률이 (1 − _α) × 100%이 아니라 μ_는 고정값, 무한히 많은 신뢰구간중 _μ 가 신뢰구간안에 들어간 것의 비율이 (1 − α) × 100% 인 것
통계량의 분포가 대칭인 경우 - 모평균에 대한 신뢰량은 (X̄ ± d) 가 가장 효율적, 즉 표본평균 중심으로 같은거리 가감하는 것이 효율적
신뢰구간이 표본평균 중심 비대칭이면 같은 신뢰수준이긴 하나 구간의 길이가 길어짐. 그래서 같은거리 가감하는 대칭이 좋음.
통계량 분포가 대칭이 아닌 경우 : 카이제곱분포

신뢰구간

신뢰구간 (CI) : 구간추정 통해 얻어지는 구간, 신뢰수준에 따라 크기가 변동.
신뢰수준 : 여러 번 구한 신뢰구간 중 추정하고자 하는 모수가 표함된 신뢰구간의 비율.
n_개의 표본으로 표본평균 _X̄_를 구하는 작업을 반복하면, 그렇게 만들어진 신뢰구간 중 100(1 − _α)% 의 표본에 대해 모평균 _μ_가 신뢰구간에 속함. 그 비율이 신뢰수준.
100(1 − α)% 신뢰구간 :

$(\bar X - z_{\alpha/2} \times \frac \sigma {\sqrt n} , \bar X + z_{\alpha/2} \times \frac \sigma {\sqrt n } )$

X̄ ± 양쪽팔구간
100(1 − α)% 오차한계

$z_{\alpha/2} SE(\hat \mu) = z_{\alpha/2} \frac {\sigma} {\sqrt n}$

(한쪽 팔)
신뢰구간의 길이 : 2 × 한쪽 팔

_σ_가 미지인 정규모집단에서 모평균 _μ_의 신뢰구간.

모표준편차가 미지인 정규모집단 N(μ, σ_2)에서 _n 크기 랜덤표본 추출,

$\bar X - \frac \mu {S/ \sqrt{n}} \sim t(n-1)$

이고,
표본분포를 정리하여, μ 가

$(\bar X - t_{\alpha/2} \frac{(n-1) s} {\sqrt n} , \bar X+t_{\alpha/2} \frac{(n-1) s} {\sqrt n} )$

이 100(1 − α)%에 대한 모평균 _μ_의 신뢰구간

신뢰구간 정리

가정사항 : 정규모집단에서 크기 _n_인 랜덤표본 추출 / 정규분포 아니라면 _n_의 수(뽑는 표본의 수가 충분히 커야함)
모평균 μ_에 대한 100(1 − _α)% 신뢰구간은
- sigma를 알 경우 X +- z_alpha/2 sigma/sqrt(n) 이고,
- sigma를 모를 경우 X +- t_alpha/2 (n-1) sigma/sqrt(n)
단 sigma를 모르지만 n>=30이면 CLT에 의해서 정규분포 따른다고 할 수 있고, sigma를 알 경우와 동일하게 해도 됨.
즉 n이 커지면 sigma를 몰라도 s가 sigma에 근접, t분포는 z분포에 수렴하게 됨.
Xi가 정규분포 따르지 않더라도 표본수가 크면 중심극한정리에 의해 X의 분포가 정규분포에 근접함. 표본수 클 때는 모집단 분포에 딱히 상관 없지만, 표본수 작으면 대칭이고 정규분포와 유사해야지 X도 정규분포를 따르게 된다.
신뢰수준은 높을 수록, 구간의 크기는 작을 수록 바람직하나, 신뢰수준과 구간 크기는 서로 상충.
주로 문제에 따라 신뢰수준 고정, 신뢰수준 만족하면서 구간 가장 작게하는 신뢰구간 (2 * z_alpha/2 sigma/sqrt n) 을 도출.
신뢰구간 작게하는 법 : 분산이 작은 추정량 이용, 표본 수를 늘림

모비율의 추정 (신뢰구간)

모비율 p_이고 _n_인 랜덤표본에서 그 속성갖는 것 갯수 _X 이 때 X ∼ B(n, p)
모비율 _p_의 추정량 : 표본비율

$\hat p = \frac X n$
표본비율 _p̂_의 기댓값 :

$E(\hat p) = \frac {E(X)} n = p$

(비편향추정량)
표본비율 _p̂_의 분산 Var(p) = Var(X) / n^2 = p(1-p) / n, SE(p) = sqrt(Var(p) = sqrt( p(1-p)/n )
p의 표준오차의 추정 모비율 p를 모르니까 p을 사용, SE(p) hat = sqrt(p(1-p) / n)
n이 충분히 크니까 clt 사용할 수 있고, 이항분포의 정규근사에 의해 X .~ N(np, np(1-p)) 가 가까워짐. 이를 표준화하면, X-np/sqrt(np(1-p) ) .~ N(0,1) 이됨.
같은 방법으로 E(p) = p이고, Var(p) _ hat = sqrt(p(1-p)/n)이 되므로, p-p/sqrt( p(1-p)/n) .~ N(0,1) 이라고 할 수 있음.
같은 방법으로 정리하면, 100(1-alpha) % 신뢰구간 (모비율 p에 대해서) (p - z_alpha/2 sqrt(p(1-p)/n) , p + z_alpha/2 sqrt(p(1-p)/n) 이라고 할 수 있음.
100(1-alpha) % 오차한계 = z_alpha/2 SE(p)_ hat = z_alpha/2 sqrt(p(1-p) /n )
표본크기 n이 크다는 기준은 np>=5, n(1-p) >=5 일때.

모평균의 추정에서 표본크기의 결정

100(1-alpha) % 신뢰수준으로 오차한계 d 이하로, 혹은 신뢰구간의 길이 2d 이하로 하기 위한 표본의 크기,
sigma 알면 : n>=(z_alpha/2 sigma/d)^2
sigma 모르면 : n>= (t_alpha/2(n-1) s /d)^2

모비율의 추정에서 표본크기의 결정

모비율의 추정에서 100(1-alpha) % 오차한계를 d 이하로 하는 것이 요구되면,
모비율의 사전 추정값 (p_)이 주어지면, n>=p_ (1-p*)(z_alpha/2 /d)^2,
모비율의 사전 추정값 (p*) 가 없으면, n>=1/4 (z_alpha/2 /d)^2

유의성 검증과 가설 검정

가설 검정

가설 검정 : 모집단의 어떤 현상에 대한 예상 or 주장이 옳은지 틀린지 표본자료 이용하여 판단.
통계적 가설 : 모집단의 특성 or 모수에 대한 대립되는 두 주장을 통해 통계적으로 다루기 편리하게 정리한 것.
귀무가설 (null hypothesis, H_0) : 모집단의 모수를 하나의 값이나 구간으로 표시. (ex) H_0 : mu = 3
대립가설 (alternative hypothesis, H_1) : 귀무가설에서 제시하는 모수의 값을 제외한 나머지 영역에서 모수의 값을 정의 (ex) H_1 : mu =/=3
현재 참이라고 여겨지는 가설이 귀무가설 (ex) 무죄추정의 원칙 - 귀무가설 : 무죄이다, 대립가설 : 피고는 유죄이다.
표본이나 검정통계량이 귀무가설의 주장 뒷받침 못하면 그 때 귀무가설 기각하게 됨.

가설 설정 규칙

연구자가 통계적으로 증명하고 싶은 것을 대립가설로 상정
귀무가설은 모수를 특정값으로 표현
양측검정 / 단측검정이 있음, 대립가설이 비교하는 값의 어느쪽을 고려하느냐에 따라서.
- 귀무가설에서 반드시 등호가 포함된다.
- 문제에서 양측검정, 단측검정 중 무엇 사용할지는 분석자가 결정.
- H_0 하에서 실제 관측된 증거보다 더 H_0에 반대되는 증거가 나올 확률 -> 이 확률이 작다는 것을 통해 귀무가설을 기각할 수 있음.

검증통계량

검증통계량(test statistics) : 검증에 사용하기 위해 표본자료에서 구한 통계량. 일반적으로 검정하려는 모수의 점추정량 or 점추정량을 표준화한 것.
모평균에 대한 검정에서 검정모수 mu에 대한 검정통계량 z 는 X를 표준화한 것과 같으며, 이는 각각 N(0,1), t(n-1)을 따르게 됨. (sigma를 알때/모를때)

P값과 기각역

유의확률 혹은 P값 (significance probability or P-value) : 귀무가설이 사실일 때 검증통계량이 실제 관측값보다 더 대립가설 지지 방향으로 치우칠 확률
유의수준 : H_0에 대한 반증에 강도에 대해 유의수준을 정해좋고 이를 유의확률과 비교. 주로 alpha로 표시하고 0.05, 0.01을 사용
p값에 의한 판정 ; -> z값(검증통계량) 에 의해 H_0 참일때 이보다 더 H_1을 지지하는 확률인 p값을 구함. 그걸 alpha랑 비교해서 p값>=alpha 이면 H_0 기각 못함 but p값<alpha 면 H_0 기각 -> p값이 유의확률보다 작다 -> 이 값보다 더 심하게 나올 가능성이 작다 -> 이 값이 충분히 H_0에서 벗어난 값이다 -> H_0 기각
단측, 양측검정에 따라 p값이 다름
기각역(rejection region) : 지정된 수준(alpha) 에서 H_0가 사실이 아니라고 기각하게 되는 영역 (alpha값에 의해 결정)
유의수준 alpha=0.05, alpha=0.01에 대응하는 백분위수, z0.05 = 1.645 z0.025 = 1.96 z0.01 = 2.326 z0.005=2.576 (95퍼 단측/양측이 1.645 1.96 , 99퍼 단측/양측 이 2.326, 2.576)
기각역에 의한 판정 : 기각역을 alpha에 따라 먼저 정하고 검증통계량이 기각역에 속하면 유의수준 alpha에서 귀무가설 H0 기각, 속하지 않으면 기각할 수 없음.

가설검정의 단계 요약

모집단의 특성에 대한 주장, 가설 설정 (H_0, H_1 설정)
검정의 유의수준 alpha 정함
표본추출후 귀무가설 하에서 검정통계량 계산
검정통계량에 대한 P값을 구하여 P값<alpha면 H_0기각 / 기각역 정하고 기각역에 속하면 H_0기각

검정 오류

검증 오류(test error) : 가설을 채택하거나 기각할 때 확률적으로 틀릴 가능성
제 1종 오류(type 1 error, alpha) (= 검정의 유의 수준)
- P(reject H_0 H_0 is true) = alpha
제 2종 오류(type 2 error, beta) : 대립가설이 사실인데 귀무가설 기각 못하는 경우.
- P(failed to reject H_0 H_0 is false) = beta
귀무가설이 사실일 때 이를 기각하지 않을 확률 (1-alpha)
검정력(power of the test) : 대립가설 하의 평균값 mu = mu1 이 사실인데 H_0를 기각할 확률 (=1-beta)
H_0와 H_1의 정규분포 곡선을 그려보았을 때 두 곡선 사이의 점 c를 임계점으로 H_0 에서 c 보다 꼬리쪽 부분이 alpha, H_1에서 c보다 꼬리쪽 부분이 beta이다. alpha, beta를 최소로 하는 기각역을 구하는 것이 우선인데, alpha, beta를 동시에 작게만들 수는 없음.
실제로는 주어진 alpha를 만족시키는 기각역 중 beta를 최소로 하는 기각역 즉 검정력이 큰 기각역을 선택. 표본수가 커지면 분산 작아지고 퍼진 것이 평균중심으로 모이므로, 고정된 alpha에 대해서 beta가 작아지고 검정력(1-beta)가 커짐.

모비율의 가설검정 (표본크기가 작은 경우)

H_0 : p=p_0, H_1 : p>p_0
모비율 p가 특정 속성의 비율일 때 X가 클 수록 대립가설 옳다는 증거가 강해짐.
P = P(X>=x), X ~ B(n, p_0)
양측검정일 경우 유의확률 P = P(X>=x), x>=np_0, X ~ B(n,p_0), 반대쪽도.

모비율의 가설검정 (표본크기가 큰 경우)

모비율의 가설검정은 p과 p_0의 차이에 따라 달라지고, H_0가 사실일 때 이항분포의 정규근사를 이용하여 검증통계량 Z에 의한 유의확률을 구하든, alpha에 따른 기각역에 Z가 속하는지를 보든 하면됨 동일하게.
표본크기 크다 : np_0>=5, n(1-p_0)>=5

댓글을 불러오는 중입니다.