[Stats] Lec 02 - 기술통계와 자료 요약

기술통계

자료를 요약하여 기술하는 것이 기술통계. 대략적 모습 보여주고(summery), 섬세한 분석 위한 기초단계로 활용
수치에 의한 기술통계(numerical description)
- 중심위치 척도(measure of location) (ex) 평균, 중앙값, 사분위수 등
- 변동성 척도(measure of variability, spread) (ex) 분산, 범위 등
- 연관성 척도(measure of association) (ex) 공분산, 상관계수
그래프나 표를 이용한 기술통계(graphical and tabular description)
- (ex) 도수분포표, 분할표, 히스토그램, 산점도 등
모집단
- 모수(parameter) : 모집단의 특징을 나타내는 대표값
- 모집단의 대표값 : 모평균, 모분산, 모표준편차, 모상관계수 등
표본
- 표본의 대표값을 통계량이라고 함
- 표본의 대표값 : 표본평균, 표본분산, 표본표준편차, 표본공분산 등
- 모수의 추론에 사용됨, 이를 추정량(estimator)라고 함

그래프나 표를 이용한 기술통계

도수분포표

표본자료를 하나의 표로 요약한 것
서로 다른 특성값에 대한 자료의 개수, 즉 도수(frequency)나 상대도수(relative frequency)를 구하여 특성값과 함께 나열한 것
상대도수 = 도수 / 전체 자료의 갯수
상대 도수를 이용하여 나타낸 도수분포표
특성값이 연속적 or 이산이지만 종류가 매우 많으면 계급으로 나눔
도수분포표의 작성 방법
1. 표본자료의 최대와 최소 찾아 (범위) = (최댓값) - (최솟값)
2. 자료의 크기에 따라 5~20 정도의 계급의 갯수를 정하고 계급의 폭은 (범위) / (계급의 개수) 계산하여 자료의 최소단위까지 끊어 정함
3. 첫번째 계급의 시작점 = (최솟값) - 1/2 * (자료값의 최소 단위)
4. 각 계급의 상대도수(또는 도수)를 구한다.
도수분포표 예제
- 어떤 집단의 40명 뽑아 키 측정한 결과 / 도수분포표 작성하여라 (40개, 최소 185, 최대 138)
- 범위 = 185-138=47 이고 계급의 개수를 6으로 하면 47/6 = 7.83 -> 폭 8
- 시작점은 138-1/2 * 1 = 137.5
- 각 계급에 해당하는 도수나 상대도수를 표시

막대그래프, 원형그래프

막대그래프(bar graph) : 각 특성값의 막대의 높이가 상대도수에 비례하게 그린 것 “상대 도수” - 상대 도수 크기 직접적으로 비교 가능
원형 그래프(pie graph) : 원을 부채꼴 모양으로 나누는데, 각 부채꼴의 넓이(혹은 중심각의 크기)가 상대도수에 비례하게 나눈 것 - 360도 * 상대도수가 각도

히스토그램

수평 축 위에 계급구간 표시, 그 위로 각 계급의 상대도수에 비례하는 넓이의 직사각형 그린 것
도수분포표 이용하여 표본자료 분포 나타낸 그래프
직사각형의 넓이가 상대도수에 비례, 직사각형의 높이 = 상대도수 / 계급의 폭
각 계급의 폭은 일정하며, 전체 직사각형 넓이의 합은 1이 되어야 함
자료값이 집중적으로 몰려있는 부분은 각 계급의 폭을 다른 계급보다 좁게 할 필요가 있음.
반대로 드물게 흩어져있으면 계급의 폭을 넓게 할 필요가 있음.

도수다각형 (frequency polygon)

히스토그램에서 각 직사각형의 윗변의 중점을 직선으로 연결하여 그린 것
도수다각형의 전체 넓이도 1임
가장 좌측과 가장 우측의 0을 찍는 지점은 계급의 폭/2 지점에 찍어야 함 ( 넓이 같게 하여 전체넓이 1로 맞추려고 )

줄기-잎 그림 (stem-and-leaf display)

히스토그램을 옆으로 돌려놓은 모양
세로 열을 줄기(stem), 오른쪽 가로 행을 잎(leaf)
자료의 값을 그대로 유지하고 있지만, 그렇기에 방대한 자료의 경우에는 그리기 어려움
그리는 법 : 처음 두(?), 마지막 자리 제외한 자릿수를 줄기에 나열, 그 줄기에 해당하는 잎을 나열, 이후 한자릿수(잎) 크기순 재배열

분할표(contingency table)

두 개 이상의 명목형, 순서형 변수에 대해 각 특성 값, 이차원 특성값의 상대도수를 이차원 표에 나열
일차원은 도수분포표에 해당
(ex) 400명에 대한 국어, 수학, 영어, 선호도 (+ 성별)로 나누어 나타냄

이차원 히스토그램과 산점도

이차원 히스토그램 : 이차원 계급을 평면 위에 표시, 각 이차원 계급의 상대도수를 부피로 갖는 직육면체 그린 것
산점도(scatter plot) : 각 이차원 자료값에 대하여 좌표가 (특성1, 특성2)를 좌표평면에 찍은 것. 두 특성의 변화관계를 쉽게 알아볼 수 있음.

수치에 의한 기술통계

중심위치 척도

자료들이 대략 어떠한 값 갖는지 알아보려고 어떤 위치를 중심으로 자료 모여있는지 나타내는 척도
위치를 나타내는 대표값 : 평균/절사평균/중앙값/최빈값/사분위수,백분위수
모집단 {c1, c2, …cN} 에서 ci는 i번째 추출단위의 특성값을 의미
표본은 {x1, x2, … , xn}

중심위치 척도의 종류

평균 : 자료를 모두 더하여 자료의 수로 나눈값, 산술평균
- 특성값 중에서 서로 다른 것을 $c_1^, c_2^, \cdots, c_k^*$ 이라 하고 각각의 도수를 $f_1, f_2, \cdots, f_k$ 라고 하면,
- 표본평균(sample mean) : μ_을 추측하는데 사용됨 : _x̄ = μ̂
- 평균은 분포(유한모집단, 무한모집단)의 균형점, 중심위치(무게중심)을 나타냄
- 자료에 특이하게 작거나 큰 값, 즉 특잇값(outlier)이 있으면 표본평균은 이들 값에 크게 영향 받음
100p% 절사평균(trimmed mean) : 순서대로 나열된 표본의 특성값 중에서 양쪽 100p%를 버린 후 가운데 100(1-2p)% 특성값의 평균으로 정의
- 특이하게 작거나 큰 값이 자료에 있어도 영향을 받지 않게 됨.
중앙값(median) : 특성값의 크기순 배열에서 가운데 값 / 연속적인 경우 밀도곡선 전체넓이 이등분하는 점
- 자료가 홀수 : 가운데 값 / 자료가 짝수 : 가운데 두 개의 평균
- 특이하게 작거나 큰 값이 자료에 있어도 영향 받지 않게 됨
최빈값(mode) : 자료 중 그 빈도수가 최대인 값
- 명목자료 : 평균과 중앙값 의미 x -> 최빈값 사용
- (ex) 올해의 유행 옷 색깔, 한 의류매장에서 판매된 바지의 허리사이즈 - 최빈값으로 표현하는 것이 나음
- 자료가 적은 경우 최빈값 무의미 / 최빈값 여러개 나올 수 있음.
사분위수, 백분위수
- 제p백분위수 (pth percentile) : 특성값 순서대로 나열, p% 특성값이 그 값보다 작고, (100-p)% 의 특성값이 그 값보다 크게 되는 값
- 제1사분위수(first quantile) : 제25백분위수, Q1
- 중앙값(median) : 제50백분위수, Q2
- 제3사분위수(third quantile) : 제75백분위수, Q3
- 표본의 경우 hat을 씌움
선형보간법
- (ex) 2.75째 자료라면 2번째 자료 + (3번째 자료 - 2번째 자료) * 0.75
- 절사평균은 $\bar{x}_{0.1}=10$ 절사평균임
중심위치 척도의 비교
- 양의 왜도 : 꼬리가 오른쪽으로 간것, 최빈값<중앙값<평균
- 음의 왜도 : 꼬리가 왼쪽으로 간것, 평균<중앙값<최빈값

변동성 척도

자료들이 얼마나 변동하거나 퍼져있는지 표시
분포의 산포(특성값이 흩어져 있는 상태) 나타내는 대표값
평균절대편차 / 사분위수범위 / 분산, 표준편차

변동성 척도의 종류

평균절대편차(Mean absolute deviation, MAD) : 각 특성값이 중앙값으로부터 떨어진 평균거리
사분위수범위(Interquartile range, IQR) : 제3사분위수와 제1사분위수 의 차로 정의, 가운데 50% 특성값의 범위. 특잇값 영향 X
분산, 표준편차 : 자료 각각의 평균으로부터의 거리의 자승한것의 평균값, 표편 : 루트 분산.
- 모분산, 모표준편차는 $\sigma^2$, $\sigma$로 표시, 상대도수의 경우 편차의 제곱 상대도수를 시그마한것.
- 표본분산, 표본표준편차 - N 대신 n-1로 나눔, 자료 하나하나값 고려되어 구해진 변동성척도로 값 클수록 변동성 큼, 넓게 퍼짐, 항상양수
- 간편 계산식 : $s^2 = \frac{1}{n-1}(\sum x_i^2 - n\bar{x}^2)$

연관성 척도

연관성(association) : 이차원 또는 그 이상의 항목에 대한 자료들이 상호 관련되어 있는 성질
이차원 특성값의 분포에서 선형관계(linear relationship)의 연관성을 나타내는 대표값들 (상관계수, 공분산)

연관성 척도의 종류

공분산(covariance) : (변수1,변수2)에서 각각 평균으로부터 떨어진값 곱한 후 더하여 표본에서는 n-1, 모집단에서 N으로 나눈 값
- 부호 양수 -> 선형관계의 직선 기울기 양수 / 부호 음수 - 음수 / 그 값이 0 -> 선형관계 존재하지 않음
- 크기 클 수록 선형관계가 클 수록 큼
상관계수(correlatiuon coefficient) : 공분산을 각자의 표준편차로 나눈 값, 공분산을 표준화한 것.
- 모집단의 모상관계수 : rho, 표본집단의 표본상관계수는 r로 나타냄
- 표본공분산 / $s_1s_2$ : 표본상관계수
- 상관계수의 성질 : −1 ≤ ρ ≤ 1, 한 직선에 분포가 집중될 수록 -1이나 1에 가까워짐
- 상관계수 간편 계산식 :

\[rho = \frac{\sum x_i y_i - n\bar{x}\bar{y}}{(n-1)s_1s_2}\]

비선형관계 ex) $y=x^2$ 일 경우 $\rho=0$

댓글을 불러오는 중입니다.