Celenort
Conciencia
게시물 253
오늘 0
전체 0
A site about logging consciousness

[Stats] Lec 01 - 통계학과 자료 수집

통계학이란?

  • 주어진 문제에 대해 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보 (자료 : data)를 수집, 정리를 통해 이를 해석하고 신뢰성 있는 결론을 이끌어내는 방법을 연구하는 과학의 한 분야
  • (ex) 여론조사가 실시되는 과정
    1. 전체가 아닌 일부만 조사 / 뽑힌 유권자가 전체 유권자의 성향을 잘 대표해야 함 (“골고루”)
    2. 수집한 자료를 어떻게 정리, 요약할 것인가
    3. 조사한 내용으로부터 전체 유권자의 성향에 대해 어떻게 결론을 내릴 것인가
    4. 결론에 대한 신뢰성을 어떻게 측정할 것인가? (일부를 이용하여 전체를 추정하므로 오차가 수반될 수밖에 없음)
  • 관심, 추측의 대상이 되는 전체 중에 일부분에 대한 자료를 수집, 정리, 요약함
  • 수집자료에서 얻은 정보 -> 대상 전체에 대한 합리적 결론을 이끌어내는 것

조사 대상

  • 모집단 : 모든 추출단위의 특성값들을 모아둔 것, 전체 추출단위의 집합
  • 유한모집단 (finite population) : 유한 개의 추출 단위로 구성된 모집단 (ex) 유권자 전체의 집단
  • 무한모집단 (infinite population) : 무한 개의 추출 단위로 구성된 모집단 (ex) 부모와 자녀의 키의 관계
  • 표본 (sample) : 통계적 분석을 위해 실제로 관측한 것들의 모임 or 실제로 관측하는 추출단위의 집합 (ex) 조사를 위해 뽑힌 유권자
  • 추론(inference) : 표본에서 얻은 정보를 이용하여 모집단에 대한 정보를 알아내려 하는 것

자료의 생성

1. 표본 조사에 의한 방법(여론 조사)
2. 실험계획에 의한 방법 (연구실 실험)
  • 두 경우 모두 통계적 분석을 위해 이용되는 표본이 된다.
  • 추출 단위 (sampling unit) : 전체를 구성하는 각 개체
  • 특성값 (characteristic) : 각 추출 단위의 특성을 나타내는 값 (ex) 지지하는 후보자, 키, 수확량

자료의 수집

모든 추출단위 중 일부분의 특성값을 관측하는 것

자료의 구분

  1. 질적 자료 (qualitative)
    • 사칙연산 불가능
    • 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나기도 함 (ex) 직업, 종교, 성별 등
    • 범주형 자료(categorical data)라 부르기도 함
    • 명목형 자료(nominal data)
      • 이름이나 문자로 나타내어지며 범주간 순서가 없음
      • (ex) 혈액형, 직업의 종류, 성별
    • 순서형 자료(ordinal data)
      • 이름이나 문자로 나타내어지지만 범주간 순서가 있음
      • 사칙연산도 할 수 있음
      • (ex) 선호도, 학점, 옷 사이즈 등
  2. 양적 자료 (quantitative)
    • 사칙연산 가능
    • 관측된 값이 수치로 측정됨
    • 합계, 평균, 분산 등으로 자료 요약 정리 가능하며, 비교도 가능 (ex) 몸무게, 용돈, 가격 등
    • 숫자형 자료(numerical data)라고 부르기도 함
    • 연속형 자료
      • 연속적인 값을 가지는 자료들
      • (ex) 키, 몸무게
      • 많은 경우는 반올림을 통해 나타냄 (ex) 키 170cm = 169.5 ~ 170.5cm 사이의 값을 의미
    • 이산형 자료
      • 관측가능한 값이 셀 수 있음
      • (ex) 주사위의 결과, 교통사고 건수
        • 자료 종류의 예) 나이
    • 연수 : 숫자형 자료이므로 평균, 분산, 히스토그램, 도수분포표, 바차트 등 모두 가능
    • 소년/청년/중년/장년 등 : 순서형 자료이므로 히스토그램, 도수분포표, 바차트 등은 가능하나 평균과 분산은 구할 수 없음

표본 조사

  • 표본 조사 : 모집단의 일부인 표본을 추출하여 이 표본에서 얻은 정보를 기초로 모집단의 특성을 파악하는 것 cf) 전수조사(census)
  • 표본이 모집단의 속성을 잘 대표해야함
  • 표본 대표성 확보를 위해 모집단의 모든 추출단위가 추출될 기회가 같아야 함
  • 통계적 표본설계는 각 추출단위에 표본으로 추출될 확률을 미리 부여하는 확률적 추출법(probability sampling) 에 근거
  • 표집오차 (sampling error) : 모집단의 일부분인 표본에 의해서 모집단을 추정하기 때문에 일어나는 오차

단순랜덤추출법

  • 유한모집단에서 n개의 추출단위로 구성된 모든 부분집합들이 표본으로 선택될 확률이 같도록 설계된 표본추출방법
  • 개념적으로 간단, 통계이론전개의 기본틀 / 가능한 모든 표본에 동등한 선출 기회 부여
  • 무작위 추출방법, 조사자 주관 개입 막기 위해 난수표나 컴퓨터의 난수 발생 프로그램 사용
  • 단순랜덤비복원추출법 / 단순랜덤복원추출법(CH4)

표본조사시 유의사항

  • 표본의 치우침 현상을 피하기 위해서는 실제 조사과정상 주의가 필요
  • 통계적 표본설계 / 정확한 설문지 작성 / 완전한 모집단의 리스트 / 조사자의 훈련과 감독 / 무응답의 적절한 관리 필요

통계적 실험

  • 실험 : 사람이나 동물, 사물에 조작 가해 어떻게 반응하는지 연구
  • 실험목적 : 실험환경, 실험조건의 변화에 따라 어떤 반응의 변화가 있는지 보는 것
  • 실험단위 : 실험이 행해지는 개체
  • 처리 : 각각의 실험단위에 특정 실험환경이나 실험조건 가하는 것
  • 인자(factor) : 통계적 실험에서 실험환경이나 실험조건을 나타내는 변수
  • 반응변수(response variable) : 이에 대한 반응 나타내는 변수(인자 처리에 따라 나타나는 반응변수)
  • 인자의 수준(level) : 인자가 취하는 값
  • (ex) 피임약 연구
    • 세가지 다른 양의 피임약을 25명에게 주사
    • 인자 : 피임약의 주사
    • 반응변수 : 주사후 30분 경과 후 피 속 약의 농도
    • 수준 : 세가지 수준(세 가지 다른 양)
  • (ex) 교과서상 문제의 위치
    • 고등학교 수학 교과서의 문제 위치/질문 종류가 미치는 영향 연구
    • 실험단위 : 학생들
    • 인자 : 위치와 유형의 2개
    • 반응변수 : 시험 점수
    • 수준 : 위치는 2가지 / 문제의 유형은 3가지
    • 처리 : 6가지의 처리를 실험

표본조사와 실험계획의 차이점

  • 실험계획 : 실험단위가 어떤 처리 받을지 실험자가 결정 (ex) 세가지 피임약을 세 그룹에 주사, 다른 외부인자 효과는 극소화 필요
  • 표본조사 : 표본으로 뽑힌 각 추출단위가 어떤 처리 받았는지 관측만 하게 됨 -> 관측 연구 (ex) 흡연이 폐암에 미치는 영향 조사, 흡연그룹과 비흡연그룹의 폐를 조사, 외부인자의 효과 통제하기 매우 어려움
  • 윤리적 실험계획을 계획할 수 없는 조사도 존재하며, 통계적 실험계획이 불가능하면 표본조사에 의한 관측연구(observation study) 불가피, 조사 결과 해석시 외부인자에 대한 각별한 주의 필요
댓글을 불러오는 중입니다.