Confidence Intervals for the Mean of Non-normal Data

Introduction

이전까지는 정규분포 데이터의 신뢰구간을 배웠음

이번에는 데이터가 normal이 아닐 때 평균에 대한 신뢰구간을 공부함

Bernoulli data and polling

Bernoulli(θ)

Conservative normal confidence intervals

Bernoulli(θ) distribution에서 추출된 데이터 x_1, x_2, ..., x_n를 가정

conservative normal (1− α) confidence interval for θ는 다음과 같음(formula 1)

x±zα/212n\overline x \pm z_{\alpha /2} \cdot {1 \over {2\sqrt n }}

example

여론 조사원이 196명에게 질문한 결과 120명은 A를 선호하고 76명은 B를 선호한다고 답변함

A를 선호하는 모집단의 비율인 θ에 대한 95% 보수적 정규 신뢰 구간을 찾아라

Proof of Formula 1

Fact. 베르누이(θ)의 분포는 최대 0.5임

Proof of fact:

σθ2=θ(1θ)\sigma _\theta ^2 = \theta \left( {1 - \theta } \right)

(σθ는 θ의 중요성을 강조하기 위한 표현)

θ = 1/2일 때 최댓값, maximum variance = 1/4, standard deviation = 1/2

Proof of formula 1. proof는 central limit theorem에 의해 증명됨. normal data의 경우에는 (1-α) z-confidence interval을 가짐:

x±za/2σθn\overline x \pm z_{a/2} \cdot {{\sigma _\theta } \over {\sqrt n }}

σθ ≤ 1/2이기 때문에 σθ를 1/2로 치환함

x±za/212n\overline x \pm z_{a/2} \cdot {1 \over {2\sqrt n }}

더 넓은 interval은 더 많은 θ의 true value를 포함할 가능성이 높으므로 θ에 대한 'conservative' (1 − α) confidence interval를 가질 수 있음

How political polls are reported

  • 정치 여론 조사는 종종 margin-of-error가 발생함.

    • 예를 들어 "후보 A 지지율 52% margin-of-error ±5%"

    • 실제 의미는 "A 후보를 지지하는 모집단의 비율 θ에 대한 point estimate는 52%이고 95% 신뢰 구간은 ±5%임"

      • 95% 신뢰 구간은 보통 언급 안 함

The 95% rule-of-thumb confidence interval

x±za/212n\overline x \pm z_{a/2} \cdot {1 \over {2\sqrt n }}

standard approximation z_.025 = 2(원래는 1.96)를 사용하면 θ에 대한 rule-of-thumb 95% confidence interval를 얻을 수 있음

x±1n\overline x \pm {1 \over {\sqrt n }}

Example 2

선거 후보 A와 B, A에 투표하는 비율을 θ라고 정함. 각각 다른 회사가 여론 조사를 진행함

  1. Fast and First 회사가 임의의 40명의 투표자 중에 A 지지자가 22명이라고 조사함

  2. Quick but Cautious 회사가 임의의 400명의 투표자 중에 A 지지자가 190명이라고 조사함

point estimate와 각 투표의 95% rule-of-thumb confidence intervals을 구하라. 왜 400명을 조사한 결과가 더 정확한지 설명하라

  1. poll 1

    point estimate:

    x=22/40=0.55\overline x = 22/40 = 0.55

    confidence interval:

    x±1n=0.55±140=0.55±0.16=55%±16%\overline x \pm {1 \over {\sqrt n }} = 0.55 \pm {1 \over {\sqrt {40} }} = 0.55 \pm 0.16 = 55\% \pm 16\%
  2. poll 2

    point estimate:

    x=190/400=0.475\overline x = 190/400 = 0.475

    confidence interval:

    x±1n=0.475±1400=0.475±0.05=47.5%±5%\overline x \pm {1 \over {\sqrt n }} = 0.475 \pm {1 \over {\sqrt {400} }} = 0.475 \pm 0.05 = 47.5\% \pm 5\%

poll 1에서는 error가 16%지만 poll 2에선 5%임

Large sample confidence intervals

데이터가 정규 분포를 따르면 standardized statistics를 따라서 평균을 추정할 수 있음

그러나 데이터 x_1, x_2, ..., x_n이 normal하지 않은 pmf나 pdf f(x)를 따른다고 가정하고,

distribution이 finite mean과 variance를 가지고 n이 충분히 크다면 central limit theorem을 따라 standardized statistics를 사용할 수 있음

Central limit Theorem

n이 충분히 크다면 studentized mean의 sampling distribution을 standard normal로 근사시킬 수 있음:

xμs/nN(0,1){{\overline x - \mu } \over {s/\sqrt n }} \approx N\left( {0,1} \right)

따라서 large n의 경우에 µ에 대한 (1 − α) confidence interval은 대략적으로

[xsnzα/2,x+snzα/2]\left[ {\overline x - {s \over {\sqrt n }} \cdot z_{\alpha /2} ,\,\overline x + {s \over {\sqrt n }} \cdot z_{\alpha /2} } \right]

이것을 large sample confidence interval이라고 함

Example 3

how large must n be?

confidence interval에 true 값이 포함되지 않으면 type 1 error가 발생함

(1 − α)를 명목상 nominal confidence level이라고 하자 (명목상: n이 충분히 크지 않으면 그렇게 부르면 안되기 때문)

실제 confidence level에 근접하도록 시뮬레이션을 수행(n이 커질수록 실제 값에 가까워질것임)

이 예시에서는 exp(1)에서 추출한 x에 대해 시뮬레이션을 수행함. 여러 n과 confidence level c에 대해 100,000번 시행

시뮬레이션의 단계

  1. exp(1)에서 n개의 샘플 추출

  2. sample mean x와 sample standard deviation s를 계산

  3. large sample c confidence interval을 설정

    x±zα/2sn\overline x \pm z_{\alpha /2} \cdot {s \over {\sqrt n }}
  4. type 1 error를 확인. true mean = 1이 interval 안에 없는지 확인

100,000 시행 후에 실증적인 confidence level은 true level에 근접함. standard normal distribution 시뮬레이션과 비교

n=20일 때에는 시뮬레이션이 nominal confidence보다 작지만 n=100일 때에는 nominal confidence에 꽤 가까워짐

결론: exp(1)의 경우에는 n이 50과 100 사이면 충분히 크다고 할 수 있음

Last updated