Hypothesis Test

Student t

  • n: Degree of Freedom, t 분포의 모양 결정

    • Z와 V는 independent

    • x^2: 카이 제곱 분포

Then

TtnT \sim t_n
  • Properties

  • symmetric distribution

    i.e.  Ttni.e.\; - T \sim t_n
  • n=1 → Cauchy distribution(평균 존재x)의 일반화

  • n≥2 → 평균이 0

    1. Heavier-tailed than Normal Distribution: 극단적인 값이 발생할 확률이 높아짐

    2. For n large, t_n looks very much like N(0,1)

      = Distribution of t_n goes to N(0,1) as n →∞

      증명)

Binomial Distribution

  • 베르누이 시행: 성공/실패로만 나타나는 시행, 각 시행은 독립

  • 성공할 확률 p, 실패할 확률 q=1-p → 베르누이 시행을 n번 했을 때의 확률 분포

  • 확률질량함수

T-test

  • 모집단의 분산을 모를 때 독립된 두 집단의 평균간의 차이를 비교(= 얼마부터 유의한가?)

    ex) 2010년 남자 평균 키 vs 2020년 남자 평균 키 175

    ​ 신약을 먹기 전 간 수치 vs 먹은 후의 간 수치

  • Null Hypothesis: 차이가 없다는 가설(= 두 집단의 평균이 같다)

    Alternative Hypothesis: 차이가 있다는 가설(= 두 집단의 평균이 다르다)

  • 가정: 독립성, 정규성, 등분산성(H0을 받아들여야 함)

  • 단일표본: 모집단 vs 표본집단

    → α 값과 t 값을 비교, 혹은 p 값과 값을 비교

  • 표본 2개

Multiple Testing

  • 여러 개의 표본집단끼리 비교할 때 단순히 Hypothesis test를 여러 번 해서는 안된다: Hypothesis test를 많이 할수록 type 1 error가 적어도 1번 나올 확률이 올라가기 때문

    • n번 test했을 때 error가 한번도 안 나올 확률 P(0):

      따라서 Multiple testing을 할 때는 통계적 수정 절차가 필요함

  • Bonferroni Correction: 간단하지만 시행 수가 많아질수록 부정확해짐

    Reject  H0  if  piαnReject\;H_0 \;if\;p_i \le {\alpha \over n}

    즉 n번 시행할 때 유의확률은 α/n

  • Dunnet test: 정확도가 높고 수정된 t-distribution을 사용함. 대조군이 1개일 때 유용함

    ex) 대조군 A, 실험군 B, C, D일 때

    ​ A-B, A-C, A-D 비교 ok

    ​ A-B, B-C, C-D 비교 no

ANOVA(Analysis of Variance)

[https://www.youtube.com/watch?v=HlSyvMRLu4w&ab_channel=SapientiaaDei]:

  • T-test는 두 그룹의 평균이 같은지 비교했다면, ANOVA는 여러 그룹의 평균을 비교함

    • Multiple testing은 type 1 error가 발생할 확률이 높아지기 때문에 ANOVA를 사용하는 것

  • ANOVA를 하기 전에 알아야 하는 변수들

    • 독립변수: 인과관계에서 원인인 변수

    • 종속변수: 인과관계에서 결과인 변수

    • 통제변수: 기본적으로는 독립변수이나 연구의 관심사가 아닌 변수

      ex) 고객만족도(독립), 다른 원인1(통제), 다른 원인2(통제), .... → 재방문율(종속)

    • 통제변수를 하나도 고려하지 않으면 model misspecification 이 발생함(모델이 잘못되었다는 의미)

  • One-way ANOVA: 독립변수가 1개인 ANOVA

    • One-way ANOVA에 사용되는 변수의 특성

      • 종속변수: Continuous 해야함

      • 독립변수: Discrete/Categorical 해야함

        ex) 어린 아이들의 폭력성 실험

        ​ 영상의 종류(독립 변수) - 폭력영화/드라마/공익광고

        ​ → 점수화된 아이들의 폭력적인 행동(종속 변수)

        • ANOVA에서 독립변수는 반드시 1개임(영상의 종류) 절대 3개(폭력영화, 드라마, 공익광고)가 아님!

    • Formula

      • 이런 식에서 보통은 우변은 독립변수 좌변은 종속변수

  • F-values ~ F-distribution: F-value는 F-distribution을 따른다

    • 다른 test들처럼 F-value를 구해서 F-distribution에서 α값과 비교하면 됨

    • F-value: 두 개의 분산의 비율을 나타냄

anova
  • Between Variance: GM(전체 평균)과 각 그룹간의 분산을 다 합친 값

    • BV가 크면 적어도 한 그룹이 다른 그룹의 평균에서 멀리 떨어져 있음(ANOVA의 목적: 여러 그룹의 평균이 같은가?)

  • Within Variance: 그룹 내의 분산

    → BV가 WV보다 충분히 커야 "BV가 크다"라고 말할 수 있다(WV는 랜덤한 변동값을 의미)

  • F-value

    • Hypothesis

  • Two-way ANOVA: 독립 변수 두개

    • Main effect: 독립변수가 가지는 효과 + interaction effect

    • 독립변수와 종속변수가 linear(직선)이라고 가정

      two way anova

    • f-value

      • 첫 번째 독립변수 main effect를 측정하기 위한 f-value

      • 두 번째 독립변수 main effect를 측정하기 위한 f-value

      • interaction 효과를 측정하기 위한 f-value

        → 3개의 BV와 1개의 WV를 비교

    • Hypothesis는 3개 필요

      • 첫 번째 main effect에 대한 가설

        H01:μ11=μ12=...=μ1kH_{01} :\mu _{11} = \mu _{12} = ... = \mu _{1k}
    • 두 번째 main effect에 대한 가설

      Ha1:μ1iμ1kH_{a1} :\mu _{1i} \ne \mu _{1k}
      • interaction effect에 대한 가설

Last updated

Was this helpful?