Hypothesis Test
Last updated
Last updated
n: Degree of Freedom, t 분포의 모양 결정
Z와 V는 independent
x^2: 카이 제곱 분포
Then
Properties
symmetric distribution
n=1 → Cauchy distribution(평균 존재x)의 일반화
n≥2 → 평균이 0
Heavier-tailed than Normal Distribution: 극단적인 값이 발생할 확률이 높아짐
For n large, t_n looks very much like N(0,1)
= Distribution of t_n goes to N(0,1) as n →∞
증명)
베르누이 시행: 성공/실패로만 나타나는 시행, 각 시행은 독립
성공할 확률 p, 실패할 확률 q=1-p → 베르누이 시행을 n번 했을 때의 확률 분포
확률질량함수
모집단의 분산을 모를 때 독립된 두 집단의 평균간의 차이를 비교(= 얼마부터 유의한가?)
ex) 2010년 남자 평균 키 vs 2020년 남자 평균 키 175
신약을 먹기 전 간 수치 vs 먹은 후의 간 수치
Null Hypothesis: 차이가 없다는 가설(= 두 집단의 평균이 같다)
Alternative Hypothesis: 차이가 있다는 가설(= 두 집단의 평균이 다르다)
가정: 독립성, 정규성, 등분산성(H0을 받아들여야 함)
단일표본: 모집단 vs 표본집단
→ α 값과 t 값을 비교, 혹은 p 값과 값을 비교
표본 2개
여러 개의 표본집단끼리 비교할 때 단순히 Hypothesis test를 여러 번 해서는 안된다: Hypothesis test를 많이 할수록 type 1 error가 적어도 1번 나올 확률이 올라가기 때문
n번 test했을 때 error가 한번도 안 나올 확률 P(0):
따라서 Multiple testing을 할 때는 통계적 수정 절차가 필요함
Bonferroni Correction: 간단하지만 시행 수가 많아질수록 부정확해짐
즉 n번 시행할 때 유의확률은 α/n
Dunnet test: 정확도가 높고 수정된 t-distribution을 사용함. 대조군이 1개일 때 유용함
ex) 대조군 A, 실험군 B, C, D일 때
A-B, A-C, A-D 비교 ok
A-B, B-C, C-D 비교 no
[https://www.youtube.com/watch?v=HlSyvMRLu4w&ab_channel=SapientiaaDei]:
T-test는 두 그룹의 평균이 같은지 비교했다면, ANOVA는 여러 그룹의 평균을 비교함
Multiple testing은 type 1 error가 발생할 확률이 높아지기 때문에 ANOVA를 사용하는 것
ANOVA를 하기 전에 알아야 하는 변수들
독립변수: 인과관계에서 원인인 변수
종속변수: 인과관계에서 결과인 변수
통제변수: 기본적으로는 독립변수이나 연구의 관심사가 아닌 변수
ex) 고객만족도(독립), 다른 원인1(통제), 다른 원인2(통제), .... → 재방문율(종속)
통제변수를 하나도 고려하지 않으면 model misspecification 이 발생함(모델이 잘못되었다는 의미)
One-way ANOVA: 독립변수가 1개인 ANOVA
One-way ANOVA에 사용되는 변수의 특성
종속변수: Continuous 해야함
독립변수: Discrete/Categorical 해야함
ex) 어린 아이들의 폭력성 실험
영상의 종류(독립 변수) - 폭력영화/드라마/공익광고
→ 점수화된 아이들의 폭력적인 행동(종속 변수)
ANOVA에서 독립변수는 반드시 1개임(영상의 종류) 절대 3개(폭력영화, 드라마, 공익광고)가 아님!
Formula
이런 식에서 보통은 우변은 독립변수 좌변은 종속변수
F-values ~ F-distribution: F-value는 F-distribution을 따른다
다른 test들처럼 F-value를 구해서 F-distribution에서 α값과 비교하면 됨
F-value: 두 개의 분산의 비율을 나타냄
Between Variance: GM(전체 평균)과 각 그룹간의 분산을 다 합친 값
BV가 크면 적어도 한 그룹이 다른 그룹의 평균에서 멀리 떨어져 있음(ANOVA의 목적: 여러 그룹의 평균이 같은가?)
Within Variance: 그룹 내의 분산
→ BV가 WV보다 충분히 커야 "BV가 크다"라고 말할 수 있다(WV는 랜덤한 변동값을 의미)
F-value
Hypothesis
Two-way ANOVA: 독립 변수 두개
Main effect: 독립변수가 가지는 효과 + interaction effect
독립변수와 종속변수가 linear(직선)이라고 가정
f-value
첫 번째 독립변수 main effect를 측정하기 위한 f-value
두 번째 독립변수 main effect를 측정하기 위한 f-value
interaction 효과를 측정하기 위한 f-value
→ 3개의 BV와 1개의 WV를 비교
Hypothesis는 3개 필요
첫 번째 main effect에 대한 가설
두 번째 main effect에 대한 가설
interaction effect에 대한 가설