Confidence Intervals: Three Views
Introduction
이전 단원에서는 confidence intervals을 standardized statistics와 hypothesis의 조합으로 설정하는 방법만 다뤘지만 이번 단원에서는 각각 따로 설정하는 방법을 배울 것임
Standardized statistics
Hypothesis Testing
Formal
Confidence intervals via standardized statistics
z-confidence intervals for µ: normal data with known σ
z-statistics를 기반으로 함
n개의 independent normal samples:
µ: unknown, σ: known이라고 가정, standard mean이 정규 분포를 따름:
normal critical value z_α/2에 대해
위 식은 µ에 대한 (1 − α) z-confidence interval. 다음과 같이 쓸 수도 있음:
위 식을 x ± error라고 생각해도 됨
t-confidence intervals for µ: normal data with unknown µ and σ
t-statistics를 기반으로 함
N개의 independent normal samples:
z-statics와는 다르게 µ와 σ 둘 다 unknown
studentized mean은 n-1 dof의 Student t distribution을 따름:
z-statistics처럼 standardized mean을 studentized mean에 대한 식으로 바꿈:
위 식은 µ에 대한 (1 − α) t-confidence interval.
위 식을 x ± error라고 생각해도 됨
X2-confidence intervals for σ2: normal data with unknown µ and σ
X2-statistics를 기반으로 함
σ2에 대한 X2-confidence interval을 구하기 위해 위에서 사용한 방법을 사용함
n independent normal samples:
µ와 σ 둘 다 unknown
standardized variance:
X2 statistics는 n-1 dof의 X2 distribution을 따름
Z와 t distribution의 경우에는 symmetry하기 때문에
이었지만 X2 distribution은 symmetry하지 않기 때문에 치환할 수 없음
위 식은 σ^2에 대한 (1 − α) χ2-confidence interval임
Confidence intervals via hypothesis testing
값을 모르는 파라미터 θ가 있는 distribution에서 데이터를 추출했다고 가정함. 값 θ에 대한 significance test는 다음과 같음
특정값 θ0에 대해 H0: θ = θ0을 설정함, θ0 = 0으로 설정하는 경우가 많음
데이터를 사용해 test statistics의 값을 계산하고 x라고 부름
x가 null hypothesis의 tail까지 충분히 멀리 있으면 H0를 reject함
example
데이터 x가 알려지지 않은 이항 분포 (12, θ)에서 추출되었다고 가정함. α = 0.1으로 설정하고 (1 - α) = 90% confidence interval을 생성함. α = 0.1인 significance test에 대해 reject region을 선택함. 그 후에 각 x의 값에 대해 어떤 θ일 때 reject되지 않았는지( = x와 관련된 신뢰구간)을 알 수 있음.
각 행은 고정된 θ에 대한 p(x|θ)
왼쪽 열부터 값을 더했을 때 0.1이 넘는 시점부터 non-reject함
주황색: rejection region
파란색: non-rejection region
example 2
x = 8일 때 confidence interval 0.9를 정하라
x=8일 때 모든 θ가 α=0.1 hypothesis test에 의해 reject되지 않는 confidence interval은 [0.5, 0.8]임
example 3
type 1 CI error의 비율이 최대 0.092인 이유를 설명하시오
confidence interval에 θ의 실제 값이 포함되지 않은 경우 발생하는 오류고, 이를 θtrue라고 함. 데이터가 θtrue에 대한 rejection region에 있을 때 발생함. 이것이 일어날 확률은 θtrue의 significance이고 최대 0.092임
example 4
https://mathlets.org/mathlets/confidence-intervals/
Formal view of confidence intervals
unknown parameter θ가 있는 pdf(x|θ) distribution을 가정함
(1 − α) confidence interval for θ is an interval statistic Ix
모델의 실제 파라미터가 θ0일 때 ramdom interval에 θ0가 포함될 확률을 의미함
Comparison with Bayesian probability intervals
신뢰 구간은 빈도주의적인 개념
probability가 아니라 likelihood의 개념
반대로 베이지안 posterior probability interval은 알려지지 않은 파라미터가 알려진 범위에 있을 확률임
Bayesian posterior probability intervals과 frequentist confidence intervals는 다음과 같은 공통점이 있기 때문에 차이가 미묘함
They start from a model f(x|θ) for observed data x with unknown parameter θ.
Given data x, they give an interval I(x) specifying a range of values for θ.
They come with a number (say .95) that is the probability of something
Last updated