[Stats] Lec 04 - 확률분포와 표본분포
모집단 분포로서의 베르누이 분포
- 특성값이 이원적인 모집단의 분포 ( O 혹은 X인 분포)
- 베르누이 시행 (Bernoulli trial) : 성공혹은 실패 뿐이고, S = s, _f_가 표본공간인 집합
- 성공의 확률을 p = Ps, 실패의 확률을 q = Pf_로 나타내며, 0 ≤ _p ≤ 1이고 q = 1 − _p_이다.
- 베르누이 확률분포 - _s_를 1 _f_를 0에 대응시키는 확률변수를 베르누이 확률변수라고 함.
-
성공확률이 p_인 베르누이 분포 _p(x) = p(1 − p)
x
1 − x
- 베르누이 분포의 평균 p, 분산 p(1 − p)
정규분포
- 평균값 중심으로 좌우대칭인 종모양, 평균에 집중, 정규분포 결정의 요인 mu, sigma
- μ 중심으로 좌우대칭, 변곡점과 대칭점사이의 거리 σ(모표준편차)
- σ 작아지면 μ 근처 넓이 커지고, σ 커지면 곡선이 평평해짐.
-
X ∼ N(μ, σ)일 떄 aX + b ∼ N(aμ + b, aσ)
2
2
2
- 두 변수가 서로 독립이면, 두 변수의 선형결합도 정규분포 이룸
표준정규분포
- 정규분포 따르는 확률변수 표준화 / 평균 0, 분산 1
-
Z ∼ N(0, 1) 일 때 주어진 α 값에 대해 P(Z > z) = α 를 만족하는 z의 값을 z_로 표기하고, 이를 표준정규분포의 제 100(1 − _α) 백분위수, 혹은 (1 − α)분위수 라고 함.
2
α
-
z = 2.58, z = 1.96, z = 1.645 이건 꼭 외우기..
0.005
0.025
0.05
표본분포(Sampling distribution)
- 모집단 : 관심의 대상이 되는 원소들의 전체집합
- 표본 : 조사가 이루어지는 모집단의 부분집합
-
모수 : 모집단의 특성 나타내는 양적 측도 (ex) 모평균 μ, 모비율 p, 모분산 σ
2
- 추정량 : 모수 추정 위해 사용되는 통계량, 주로 대문자 표기, hat을 붙여 표기
- 추정치 : 관측치로부터 게산된 모수의 예측값, 주로 소문자 표시
- 통계량 : 표본의 관측값들로부터 계산되는 수치함수
단순랜덤추출법
- 많은 경우 베르누이 시행은 독립적으로 반복되는 시험.
- ‘독립적’ 시행의 결과를 하나의 사건, 각 사건끼리 독립
- ‘반복적’ 매번 시행에서 성공확률이 동일함
- 단순랜덤추출법 : 모집단에서 n개의 추출단위로 구성된 모든 부분집합이 표본으로 선택될 확률 같도록 설계(CH1) / 복원, 비복원으로 나뉨
- 단순랜덤복원추출 : 뽑은 것 다시 되돌려놓고 다음 것 뽑는 것, 무한모집단의 랜덤표본 정의 위해 개념적 도구로 사용.
- 단순랜덤비복원추출 : 유한모집단 크기 N인 경우 n개 표본 뽑으면, 모든 표본 가능한 수 =${N \choose n}$이고, 특정 표본의 확률은$\frac {1}{N \choose n}$
랜덤표본
-
X : i번째로 뽑힌 추출단위의 특성값을 나타내는 확률변수라고 하면
i
- 유한 모집단 : 단순랜덤비복원추출로 뽑은 표본이 랜덤표본 크기가 n이면 {X1, X2, …, Xn}
- 무한 모집단 : 서로 독립이며 모집단 분포와 동일한 분포 갖는 확률변수들의 집합을 랜덤표본.
- Xi ∼ iid f(x) (i.i.d : independent and identically distributed, f(x) 모집단의 분포)
- (ex) {o o o x x}에서 크기 3인 표본 단순 랜덤비복원추출로 뽑아 p 추측 -> _p̂_은 표본추출의 결과에 따라 하나의 수값을 대응시키는 확률변수임과 동시에 통계량이며, _p̂_은 확률분포를 가지게 됨.
- 통계량의 확률분포를 표본분포라고 함.
초기하 분포
- 모집단의 특성값이 두가지로 분류되는 경우
- 1의 갯수 D, 0의 갯수 N-D일때 1의 갯수를 X라 하면 X의 확률분포 ~ 초기하분포,
-$p(x) = frac { {Dchoose x} {N-Dchoose n-x} } {N choose n}$
- 모비율 = D/N_의 추정은 표본비율 _p̂ 사용, X/n _p̂_의 표본분포는 X의 표본분포에서 유도가능
- 초기하분포의 평균과 분산
$E(X) = np \ Var(X) = \frac {np(1-p)} { \frac {N-n} {N-1} }$
이항분포
- 특성값이 1, 0과 같이 이원적 분류되는 무한모집단에서 랜덤표본 n개 추출, 이들은 서로 독립이며 성공확률이 p인 베르누이분포 B(1,p) 따름.
$X_i = 1(success), 0(fail) ~\ iid \ B(1,p) \ for \ i=1\sim n$
- 이 때 총 n번 시행중 성공횟수가 X= X1+X2+… + Xn으로 표현되고 확률변수는 이항분포 B(n,p)를 따름
- 이항분포 : 성공률 p인 베르누이 시행을 n번 반복시행할 때 X = 성공횟수의 분포
$p(x) = {n \choose x} p^x (1-p)^{n-x} \ x=0\sim n$ 이항계수 = nCx
- X가 모수 (n,p) 따를 때 X ∼ B(n, p)로 표현되고, n=1일 때 B(n,p)는 “1”의 확률이 p인 베르누이 분포
- 이항분포의 평균 E(X) = np, Var(X) = np(1 − p)
- p < 1/2, 왜도 양수, p > 1/2 왜도 음수
- 초기하분포의 이항분포 근사: N → ∞, “1” 의 비 D/N_이 _p_에 무한히 가까워질 떄 초기하분포는 이항분포 _B(n, p)에 수렴
표본평균의 분포
- 일반적 모집단(무한모집단)의 표본평균의 표본분포
- 모평균 μ, 모분산 _σ_2에서 크기 n인 랜덤표본 추출
E(X̄) = μ, Var(X̄) = σ_2/_n,$sd(\bar X) = \sigma/ \sqrt n$
$E(\bar{X}) = \frac{1}{n} E(X_1 + X_2 + \cdots X_n) = \frac {1} {n} {E(X_1) + E(X_2 + \cdots +E(X_n) } = \mu$
$Var(bar{X}) = frac {1}{n^2} Var(X_1 + X_2 + cdots + X_n) = frac {1}{n^2} {Var(X_1) + Var(X_2) + cdots + Var(X_n) }$
왜냐하면
$displaystyleSigma^x displaystyleSigma^y Cov(X_i, Y_i) = 0 \ Var(bar{X}) frac {sigma^2} {n}$ - 모집단의 분포가 정규분포 N(μ, _σ_2)일 때 표본평균 _X̄_는$N(\mu, \frac{\sigma^2} {n})$을 따른다. _n_과 관련없이
- 중심극한정리 : 평균이 μ, 분산이 σ_2인 임의 모집단에서 표본크기 _n_이 충분히 크면 표본평균 _X̄ 는 근사적으로 정규분포$N(\mu, \frac{\sigma^2} {n})$을 따름. 대략 n > 30
표본평균의 분포(유한모집단)
- 모평균 μ, 모분산 σ 크기가 _N_인 유한모집단에서 크기 _n_인 랜덤표본 추출 (비복원) 하면
$E(bar X) = mu \ Var(bar X) = frac {N-n} {N-1} frac {sigma^2}{n}$
2
- 유한모집단에서도 _N_과 _n_이 충분히 크다면 중심극한원리에 의해
$bar X - frac {mu} {sigma} sqrt{frac {N-n} {n(N-1)} } sim N(0,1)$
t분포
- 표준정규분포 N(0, 1)을 따르는 확률변수 Z, 이와는 독립이며 자유도 _k_인 카이제곱분포 따르는 확률변수 _V_라 할 때
$\displaystyle T=\frac {Z} {\sqrt\frac V k}$ 의 분포를 자유도 _k_인 t분포
- T ∼ t(k)
- 자유도는 분포의 퍼진정도 나타내며 자유도 클수록 가운데로 모이고 표준정규분포로 수렴
- 표준정규분포와 유사하지만 꼬리가 두터움
-
P{T ≥ t(k)} = α 인 t(k) 를 자유도가 k_인 t분포의 (1 − _α) 분위수라고 함
α
α
스튜던트화된 표본평균의 분포
- X ∼ X_이 정규모집단 _N(μ, σ)으로부터의 랜덤표본일 때 표본평균 _x̄_에 대해서
$\displaystyle \frac {X-\mu} { {S} / {\sqrt n } } \sim t(n-1)$ 이 성립
1
n
2
-
X⋯X ∼ iid N(μ, σ)일 때$\frac {\bar X -\mu} {\sigma/\sqrt n } \sim N(0,1)$인데 σ_가 미지이면 _σ 대신 표본표준편차 S 대입
1
n
2
- 스튜던트 분포인거 유도해보기…
$T \sim \frac Z {\sqrt{V/k}} , \ \frac {(n-1)s^2}{\sigma} \sim \chi^2(n-1) \ \ \frac {\bar x -\mu} {\sigma / \sqrt n } \sim N(0,1)$
표본비율의 분포
- 비율은 평균의 특수한 경우이다.
X⋯X ∼ iid B(1, p) 이면 X = ΣX ∼ B(n, p) 이고, 이 때의 표본비율 $hat p = frac X n = frac{Sigma X_i} {n}$
1
n
i
-$E(\hat p) = \frac {E(X)} n = \frac {np} n = p$
- Var(p̂) = Var(X) / n^2 = np(1-p)/n^2 = p(1-p)/n
- 표본비율 _p̂_의 근사분포 -> _n_이 크면 정규화한 것이 표준정규분포를 따르게 됨. (이항분포의 정규근사)
이항분포의 정규근사
- 이항분포에서 _n_이 크면 확률 계산이 힘듦으로, 이산형인 이항분포의 여러 확률을 중심극한정리 이용해 연속형 정규분포로 근사적으로 구함.
$E(hat p) = p, Var(hat p) = frac {p(1-p)} n$ 에서 clt 이용하면, $\frac {\hat p -p} {\sqrt{p(1-p)/n}} \sim N(0,1)$ 이고 분자 분모에 n_을 곱하여 $\frac {X-np} {\sqrt{np(1-p)}} \sim N(0,1)$ 이 근사의 정밀도는 _np > 5, n(1 − p) > 5일때 좋음
- 이항분포가 대칭형이면 근접속도 매우 빠르고, 비대칭이어도 근접하나, 극단적인 비대칭의 경우는 n이 아주 커야함
이항분포의 정규근사 - 연속성 수정
- 실제 이항분포에서 7~10 사이의 확률값을 알고싶다고 하면 정규근사하여 P(7 ≤ X ≤ 10) 하면 넓이가 조금밖에 안드감.. 그래서 이걸 수정하기 위해 0.5를 곱해서 더하거나 빼서 연속성 수정.
-$P(a\le x\le b) \approx P(a-0.5-\frac \mu \sigma \le Z \le b+0.5-\frac \mu \sigma)$에서 등호가 빠지면 넓이가 작아지는쪽으로 0.5 방향 수정.
정규분포 분위수대조도 (quantile-quantile plot, Q-Q plot)
- 표준정규분포의 분위수와 이에 대응하는 자료분포의 분위수를 좌표로 하는 점들을 그림으로 나타낸 것.
- 점들이 직선 주위에 밀접하여 나타나면 정규분포가 타당.
- 1/3분위수 = 전체넓이를 1:2로 나누는 위치의 수, 즉 내 위에 1/3, 아래에 2/3
- 통계 패키지의 경우에는 i/n 분위수 대신$\frac {i-3/8} {n + {1} / 4}$분위수에 대응시켜 그림