Hypothesis Test

Student t

Then

T \sim t_n

Properties
symmetric distribution
$i.e.\; - T \sim t_n$
n=1 → Cauchy distribution(평균 존재x)의 일반화
n≥2 → 평균이 0
1. Heavier-tailed than Normal Distribution: 극단적인 값이 발생할 확률이 높아짐
2. For n large, t_n looks very much like N(0,1)
  = Distribution of t_n goes to N(0,1) as n →∞
  증명)

모집단의 분산을 모를 때 독립된 두 집단의 평균간의 차이를 비교(= 얼마부터 유의한가?)
ex) 2010년 남자 평균 키 vs 2020년 남자 평균 키 175
신약을 먹기 전 간 수치 vs 먹은 후의 간 수치
Null Hypothesis: 차이가 없다는 가설(= 두 집단의 평균이 같다)
Alternative Hypothesis: 차이가 있다는 가설(= 두 집단의 평균이 다르다)
가정: 독립성, 정규성, 등분산성(H0을 받아들여야 함)
단일표본: 모집단 vs 표본집단
→ α 값과 t 값을 비교, 혹은 p 값과 값을 비교
표본 2개

여러 개의 표본집단끼리 비교할 때 단순히 Hypothesis test를 여러 번 해서는 안된다: Hypothesis test를 많이 할수록 type 1 error가 적어도 1번 나올 확률이 올라가기 때문
- n번 test했을 때 error가 한번도 안 나올 확률 P(0):
  따라서 Multiple testing을 할 때는 통계적 수정 절차가 필요함
Bonferroni Correction: 간단하지만 시행 수가 많아질수록 부정확해짐
$Reject\;H_0 \;if\;p_i \le {\alpha \over n}$
즉 n번 시행할 때 유의확률은 α/n
Dunnet test: 정확도가 높고 수정된 t-distribution을 사용함. 대조군이 1개일 때 유용함
ex) 대조군 A, 실험군 B, C, D일 때
A-B, A-C, A-D 비교 ok
A-B, B-C, C-D 비교 no

T-test는 두 그룹의 평균이 같은지 비교했다면, ANOVA는 여러 그룹의 평균을 비교함
- Multiple testing은 type 1 error가 발생할 확률이 높아지기 때문에 ANOVA를 사용하는 것
ANOVA를 하기 전에 알아야 하는 변수들
- 독립변수: 인과관계에서 원인인 변수
- 종속변수: 인과관계에서 결과인 변수
- 통제변수: 기본적으로는 독립변수이나 연구의 관심사가 아닌 변수
  ex) 고객만족도(독립), 다른 원인1(통제), 다른 원인2(통제), .... → 재방문율(종속)
- 통제변수를 하나도 고려하지 않으면 model misspecification 이 발생함(모델이 잘못되었다는 의미)
One-way ANOVA: 독립변수가 1개인 ANOVA
- One-way ANOVA에 사용되는 변수의 특성
  - 종속변수: Continuous 해야함
  - 독립변수: Discrete/Categorical 해야함
    ex) 어린 아이들의 폭력성 실험
    영상의 종류(독립 변수) - 폭력영화/드라마/공익광고
    → 점수화된 아이들의 폭력적인 행동(종속 변수)
    ANOVA에서 독립변수는 반드시 1개임(영상의 종류) 절대 3개(폭력영화, 드라마, 공익광고)가 아님!
- Formula
  - 이런 식에서 보통은 우변은 독립변수 좌변은 종속변수
F-values ~ F-distribution: F-value는 F-distribution을 따른다
- 다른 test들처럼 F-value를 구해서 F-distribution에서 α값과 비교하면 됨
- F-value: 두 개의 분산의 비율을 나타냄

Between Variance: GM(전체 평균)과 각 그룹간의 분산을 다 합친 값
- BV가 크면 적어도 한 그룹이 다른 그룹의 평균에서 멀리 떨어져 있음(ANOVA의 목적: 여러 그룹의 평균이 같은가?)
Within Variance: 그룹 내의 분산
→ BV가 WV보다 충분히 커야 "BV가 크다"라고 말할 수 있다(WV는 랜덤한 변동값을 의미)
F-value
- Hypothesis
Two-way ANOVA: 독립 변수 두개
- Main effect: 독립변수가 가지는 효과 + interaction effect
- 독립변수와 종속변수가 linear(직선)이라고 가정
- f-value
  - 첫 번째 독립변수 main effect를 측정하기 위한 f-value
  - 두 번째 독립변수 main effect를 측정하기 위한 f-value
  - interaction 효과를 측정하기 위한 f-value
    → 3개의 BV와 1개의 WV를 비교
- Hypothesis는 3개 필요
  - 첫 번째 main effect에 대한 가설
    $H_{01} :\mu _{11} = \mu _{12} = ... = \mu _{1k}$
- 두 번째 main effect에 대한 가설
  $H_{a1} :\mu _{1i} \ne \mu _{1k}$
  - interaction effect에 대한 가설

Last updated 3 years ago

Was this helpful?