[Stats] Lec 01 - 통계학과 자료 수집
통계학이란?
- 주어진 문제에 대해 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보 (자료 : data)를 수집, 정리를 통해 이를 해석하고 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 과학의 한 분야
- (ex) 여론조사가 실시되는 과정
- 전체가 아닌 일부만 조사 / 뽑힌 유권자가 전체 유권자의 성향을 잘 대표해야 함 (“골고루”)
- 수집한 자료를 어떻게 정리, 요약할 것인가
- 조사한 내용으로부터 전체 유권자의 성향에 대해 어떻게 결론을 내릴 것인가
- 결론에 대한 신뢰성을 어떻게 측정할 것인가? (일부를 이용하여 전체를 추정하므로 오차가 수반될 수밖에 없음)
- 관심, 추측의 대상이 되는 전체 중에 일부분에 대한 자료를 수집, 정리, 요약함
- 수집자료에서 얻은 정보 -> 대상 전체에 대한 합리적 결론을 이끌어내는 것
조사 대상
- 모집단 : 모든 추출단위의 특성값들을 모아둔 것, 전체 추출단위의 집합
- 유한모집단 (finite population) : 유한 개의 추출 단위로 구성된 모집단 (ex) 유권자 전체의 집단
- 무한모집단 (infinite population) : 무한 개의 추출 단위로 구성된 모집단 (ex) 부모와 자녀의 키의 관계
- 표본 (sample) : 통계적 분석을 위해 실제로 관측한 것들의 모임 or 실제로 관측하는 추출단위의 집합 (ex) 조사를 위해 뽑힌 유권자
- 추론(inference) : 표본에서 얻은 정보를 이용하여 모집단에 대한 정보를 알아내려 하는 것
자료의 생성
1. 표본 조사에 의한 방법(여론 조사)
2. 실험계획에 의한 방법 (연구실 실험)
- 두 경우 모두 통계적 분석을 위해 이용되는 표본이 된다.
- 추출 단위 (sampling unit) : 전체를 구성하는 각 개체
- 특성값 (characteristic) : 각 추출 단위의 특성을 나타내는 값 (ex) 지지하는 후보자, 키, 수확량
자료의 수집
모든 추출단위 중 일부분의 특성값을 관측하는 것
자료의 구분
- 질적 자료 (qualitative)
- 사칙연산 불가능
- 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나기도 함 (ex) 직업, 종교, 성별 등
- 범주형 자료(categorical data)라 부르기도 함
- 명목형 자료(nominal data)
- 이름이나 문자로 나타내어지며 범주간 순서가 없음
- (ex) 혈액형, 직업의 종류, 성별
- 순서형 자료(ordinal data)
- 이름이나 문자로 나타내어지지만 범주간 순서가 있음
- 사칙연산도 할 수 있음
- (ex) 선호도, 학점, 옷 사이즈 등
- 양적 자료 (quantitative)
- 사칙연산 가능
- 관측된 값이 수치로 측정됨
- 합계, 평균, 분산 등으로 자료 요약 정리 가능하며, 비교도 가능 (ex) 몸무게, 용돈, 가격 등
- 숫자형 자료(numerical data)라고 부르기도 함
- 연속형 자료
- 연속적인 값을 가지는 자료들
- (ex) 키, 몸무게
- 많은 경우는 반올림을 통해 나타냄 (ex) 키 170cm = 169.5 ~ 170.5cm 사이의 값을 의미
- 이산형 자료
- 관측가능한 값이 셀 수 있음
- (ex) 주사위의 결과, 교통사고 건수
- 자료 종류의 예) 나이
- 연수 : 숫자형 자료이므로 평균, 분산, 히스토그램, 도수분포표, 바차트 등 모두 가능
- 소년/청년/중년/장년 등 : 순서형 자료이므로 히스토그램, 도수분포표, 바차트 등은 가능하나 평균과 분산은 구할 수 없음
표본 조사
- 표본 조사 : 모집단의 일부인 표본을 추출하여 이 표본에서 얻은 정보를 기초로 모집단의 특성을 파악하는 것 cf) 전수조사(census)
- 표본이 모집단의 속성을 잘 대표해야함
- 표본 대표성 확보를 위해 모집단의 모든 추출단위가 추출될 기회가 같아야 함
- 통계적 표본설계는 각 추출단위에 표본으로 추출될 확률을 미리 부여하는 확률적 추출법(probability sampling) 에 근거
- 표집오차 (sampling error) : 모집단의 일부분인 표본에 의해서 모집단을 추정하기 때문에 일어나는 오차
단순랜덤추출법
- 유한모집단에서 n개의 추출단위로 구성된 모든 부분집합들이 표본으로 선택될 확률이 같도록 설계된 표본추출방법
- 개념적으로 간단, 통계이론전개의 기본틀 / 가능한 모든 표본에 동등한 선출 기회 부여
- 무작위 추출방법, 조사자 주관 개입 막기 위해 난수표나 컴퓨터의 난수 발생 프로그램 사용
- 단순랜덤비복원추출법 / 단순랜덤복원추출법(CH4)
표본조사시 유의사항
- 표본의 치우침 현상을 피하기 위해서는 실제 조사과정상 주의가 필요
- 통계적 표본설계 / 정확한 설문지 작성 / 완전한 모집단의 리스트 / 조사자의 훈련과 감독 / 무응답의 적절한 관리 필요
통계적 실험
- 실험 : 사람이나 동물, 사물에 조작 가해 어떻게 반응하는지 연구
- 실험목적 : 실험환경, 실험조건의 변화에 따라 어떤 반응의 변화가 있는지 보는 것
- 실험단위 : 실험이 행해지는 개체
- 처리 : 각각의 실험단위에 특정 실험환경이나 실험조건 가하는 것
- 인자(factor) : 통계적 실험에서 실험환경이나 실험조건을 나타내는 변수
- 반응변수(response variable) : 이에 대한 반응 나타내는 변수(인자 처리에 따라 나타나는 반응변수)
- 인자의 수준(level) : 인자가 취하는 값
- (ex) 피임약 연구
- 세가지 다른 양의 피임약을 25명에게 주사
- 인자 : 피임약의 주사
- 반응변수 : 주사후 30분 경과 후 피 속 약의 농도
- 수준 : 세가지 수준(세 가지 다른 양)
- (ex) 교과서상 문제의 위치
- 고등학교 수학 교과서의 문제 위치/질문 종류가 미치는 영향 연구
- 실험단위 : 학생들
- 인자 : 위치와 유형의 2개
- 반응변수 : 시험 점수
- 수준 : 위치는 2가지 / 문제의 유형은 3가지
- 처리 : 6가지의 처리를 실험
표본조사와 실험계획의 차이점
- 실험계획 : 실험단위가 어떤 처리 받을지 실험자가 결정 (ex) 세가지 피임약을 세 그룹에 주사, 다른 외부인자 효과는 극소화 필요
- 표본조사 : 표본으로 뽑힌 각 추출단위가 어떤 처리 받았는지 관측만 하게 됨 -> 관측 연구 (ex) 흡연이 폐암에 미치는 영향 조사, 흡연그룹과 비흡연그룹의 폐를 조사, 외부인자의 효과 통제하기 매우 어려움
- 윤리적 실험계획을 계획할 수 없는 조사도 존재하며, 통계적 실험계획이 불가능하면 표본조사에 의한 관측연구(observation study) 불가피, 조사 결과 해석시 외부인자에 대한 각별한 주의 필요
댓글을 불러오는 중입니다.