Null Hypothesis Significance Testing
Last updated
Last updated
Review: setting up and running a significance test
Notes.
significance level을 사용하지 않고 rejection 영역을 사용해도 됨.
null hypothesis는 'cautious hypothesis'가 될 수도 있음. significance level이 낮을수록 가설을 reject하기 위해 더 많은 evidence가 필요하기 때문.
key point of confusion:
significance level = 0.05의 의미가 test에서 실수가 일어날 확률이 5%라는 의미 X
H0이 참일 때 H0을 reject할 확률이라는 의미 O
!! power of the test = HA가 참일 때 H0를 reject할 확률
-> HA가 참일 때 H0을 reject하지 못할 확률 = 1 - power
Errors
많은 significance test는 데이터가 정규 분포에서 추출되었다고 가정하기 때문에 정규성 가정이 합리적인지 확인해야 함
z-test와 마찬가지로 one sample과 two sample t-test는 정규성을 가정함
Z-test
Review
Example)
데이터가
를 따를 때
으로 가정함. 우리가 수집한 데이터가 1, 2, 3, 6, -1이라고 가정한다면 significance level이 0.05일때 H0를 reject해야 하는가?
Answer)
p<0.05이기 때문에 H0를 reject해야한다
The Student t distribution
위키피디아 참고
normal distribution처럼 대칭적이고 종 모양임
파라미터 df(degrees of freedom)에 따라 모양이 변함(df가 작을수록 꼬리가 두껍고 df가 클수록 ND에 가까워짐)
t-distribution의 모양을 볼 수 있는 곳:http://mathlets.org/mathlets/t-distribution/
One sample t-test
z-test는 분산을 안다고 가정하지만 실제로는 알 수 없는 경우가 많기 때문에 데이터에서 추정해야 함
이런 경우에 one sample t-test를 사용함
example)
이전 예제에서 variance를 모른다고 가정함. 우리가 수집한 데이터는 1, 2, 3, 6, -1이고
이라고 가정함. significance level이 0.05일 때 H0을 reject해야 하는가?
Two-sample t-test with equal variance
Data: Normal distribution을 따르는 두 가지 데이터셋
mean과 variance 둘 다 모르는 값이지만 같다고 추정
Null Hypothesis:
Test statistic:
Null distribution:
Note
pooled variance를 다음과 같이 정의하는 저자도 있음
이 수업에선 그것을 estimated variance of x-y라고 부름
그룹간의 분산이 다른 two-sample test도 있음. 조금 더 복잡함
Example
산부인과에 온 여성 1408명의 임신 기간
검진 목적:
응급:
두 그룹의 평균이 다른지 two-sample t-test를 통해 조사하라
t, z test 등등 테이블로 정리(언제 어떤 거 사용해야하는지)
one sample vs two