Przedział ufności

Wykres przedstawiający sto przedziałów ufności; na osi X oszacowanie. Zdecydowana większość przedziałów pokrywa prawdziwej średniej, ale różnią się pomiędzy sobą szerokością i położeniem.
Przedziały ufności (95%) oparte na stu symulacjach prób z tego samego rozkładu normalnego. Szerokość i położenie każdego przedziału to parametry oparte na próbie, w związku z czym cechują się one zmiennością. Można jednak oczekiwać, że w idealnej sytuacji na sto przypadków tylko około pięć nie będzie zawierać średniej oryginalnego rozkładu.

Przedział ufności – podstawowe narzędzie estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polskiego matematyka Jerzego Spławę-Neymana. Występuje w wielu wariantach, w klasycznym wąskim rozumieniu opiera się o błąd standardowy. Szczególny przypadek przedziału ufności w badaniach ankietowych jest zwyczajowo określany marginesem błędu[1].

Definicja

Niech cecha X {\displaystyle X} ma rozkład w populacji z nieznanym parametrem θ . {\displaystyle \theta .} Z populacji wybieramy próbę losową ( X 1 , X 2 , , X n ) . {\displaystyle (X_{1},X_{2},\dots ,X_{n}).} Przedziałem ufności o współczynniku ufności 1 α {\displaystyle 1-\alpha } nazywamy taki przedział ( θ 1 , θ 2 ) , {\displaystyle (\theta _{1},\theta _{2}),} który spełnia warunek:

P ( θ 1 < θ < θ 2 ) = 1 α , {\displaystyle P(\theta _{1}<\theta <\theta _{2})=1-\alpha ,}

gdzie θ 1 {\displaystyle \theta _{1}} i θ 2 {\displaystyle \theta _{2}} są funkcjami wyznaczonymi na podstawie próby losowej.

Podobnie jak w przypadku estymatorów definicja pozwala na dowolność wyboru funkcji z próby, jednak tutaj kryterium wyboru najlepszych funkcji narzuca się automatycznie – zazwyczaj będziemy poszukiwać przedziałów najkrótszych.

Współczynnik ufności 1 α {\displaystyle 1-\alpha } jest wielkością, którą można interpretować w następujący sposób: jest to prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru θ {\displaystyle \theta } w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 α , {\displaystyle 1-\alpha ,} tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości: 0,99; 0,95 lub 0,90, zależnie od parametru.

Interpretacja

Wykres punktowy przedstawiający oszacowania prędkości światła z przedziałami ufności (na osi Y) w kolejnych latach między 1874 a 1979 (na osi X). Duża liczba przedziałów nie pokrywa przyjętej po 1983, prawdziwej z definicji wartości.
55 wybranych historycznych oszacowań prędkości światła w próżni wraz z przybliżonymi przedziałami ufności (86%; 1.48 × szacowany w badaniu błąd; na podstawie pracy Henriona i Fischoffa[2]). Gdyby eksperymenty nie były obarczone błędami systematycznymi, można byłoby oczekiwać aby tylko około 8 przedziałów nie zawierało poprawnej wartości. W tym przypadku aż 24 nie są trafne (zaznaczone na żółto).

Przedziały ufności konstruowane w oparciu o paradygmat częstościowy weryfikacji hipotez statystycznych niosą ze sobą trudności interpretacyjne typowe dla tego podejścia. Metodologia ta nie była tworzona jako narzędzie służące do jednorazowego szacowania parametrów, lecz długoterminowej kontroli błędów, co jest z reguły kontrintuicyjne dla użytkowników. Zdaniem niektórych statystyków preferujących paradygmat bayesowski, jak Hoekstra i in., lub Gelman, prawidłowa interpretacja przedziałów ufności nie uprawnia w ścisłym sensie do przyjęcia, że z daną „ufnością” prawdziwa wartość parametru znajduje się w zaobserwowanym przedziale. Przy wielokrotnym powtarzaniu eksperymentu, 95% przedziałów ufności na poziomie 95% powinno w idealnych warunkach zawierać rzeczywistą wartość parametru, ale nie przekłada się to na równoważną pewność co do żadnego konkretnego przedziału, ani tym bardziej – średniej na której jest on skonstruowany. Do wniosków takich w pełni uprawniają na przykład metody bayesowskie[3][4][5][6].

Dla ilustracji, osoba, która kierowałaby się przedziałami ufności w grze hazardowej, w przypadku wielu rodzajów danych przegrywałaby statystycznie częściej, niż sugerują nominalne właściwości tych przedziałów[7]. Według badań z 2004 r. większość naukowców jest przekonana, że średnie arytmetyczne uzyskane dla kolejnych prób losowych będą się zawierały w skonstruowanym 95% przedziale ufności z częstotliwością 95%. W rzeczywistości kolejne średnie z próbek zawierają się w skonstruowanym przedziale z prawdopodobieństwem ok. 83,4% dla próbek z rozkładu normalnego[8]. W wielu przypadkach przedziały skonstruowane z użyciem statystyk odpornościowych są bardziej niezawodne, ale i w tym przypadku wykryto wyjątki[9].

Z przyjęciem tej nieintuicyjnej i zniuansowanej interpretacji ma jednak problem większość osób, nawet badaczy-praktyków[3][6]. Dodatkowo, w praktyce dobór prób i pomiary nie są nigdy realizowane w idealnej zgodności z założeniami modeli statystycznych. Ogólnie rzecz biorąc, zaleca się traktowanie nominalnego poziomu ufności jako przeszacowującego epistemologiczną pewność wyników[10], oraz używanie statystyk bayesowskich do zastosowań ściśle epistemologicznych[3].

Przykłady przedziałów ufności

Ponieważ szukamy jak najkrótszych przedziałów ufności, dlatego przy wyznaczaniu przedziału staramy się wykorzystać jak najwięcej dostępnych informacji o rozkładzie cechy w populacji. Jeśli np. cecha ma rozkład normalny z odchyleniem standardowym σ , {\displaystyle \sigma ,} to zastosowanie wzoru na przedział ufności dla nieznanego σ {\displaystyle \sigma } również da poprawny wynik, jednak przedział otrzymany tą metodą będzie szerszy, czyli mniej dokładny. Z kolei wzory ogólniejsze, np. dla nieznanego rozkładu, często korzystają z rozkładów granicznych estymatorów i dlatego wymagają dużej liczebności próby.

Przedział ufności dla średniej

Znane odchylenie standardowe

Cecha ma w populacji rozkład normalny N ( μ , σ ) , {\displaystyle N(\mu ,\sigma ),} przy czym odchylenie standardowe σ {\displaystyle \sigma } jest znane. Przedział ufności dla parametru μ {\displaystyle \mu } tego rozkładu ma postać:

P ( X ¯ u 1 α 2 σ n < μ < X ¯ + u 1 α 2 σ n ) = 1 α , {\displaystyle P\left({\overline {X}}-u_{1-{\frac {\alpha }{2}}}{\frac {\sigma }{\sqrt {n}}}<\mu <{\overline {X}}+u_{1-{\frac {\alpha }{2}}}{\frac {\sigma }{\sqrt {n}}}\right)=1-\alpha ,}

lub równoważnie

P ( X ¯ + u α 2 σ n < μ < X ¯ u α 2 σ n ) = 1 α {\displaystyle P\left({\overline {X}}+u_{\frac {\alpha }{2}}{\frac {\sigma }{\sqrt {n}}}<\mu <{\overline {X}}-u_{\frac {\alpha }{2}}{\frac {\sigma }{\sqrt {n}}}\right)=1-\alpha }

gdzie:

Zobacz w Wikiźródłach tablicę rozkładu normalnego
  • n {\displaystyle n} – liczebność próby losowej,
  • X ¯ {\displaystyle {\overline {X}}} – średnia z próby losowej,
  • σ {\displaystyle \sigma } – odchylenie standardowe populacji,
  • u 1 α 2 = u α 2 {\displaystyle u_{1-{\frac {\alpha }{2}}}=-u_{\frac {\alpha }{2}}} to kwantyl rzędów 1 α 2 {\displaystyle 1-{\frac {\alpha }{2}}} rozkładu N ( 0 , 1 ) . {\displaystyle N(0,1).}

Nieznane odchylenie standardowe

Cecha ma w populacji rozkład normalny N ( μ , σ ) , {\displaystyle N(\mu ,\sigma ),} przy czym odchylenie standardowe σ {\displaystyle \sigma } jest nieznane. Przedział ufności dla parametru μ {\displaystyle \mu } tego rozkładu ma postać:

P ( X ¯ t 1 α 2 S n < μ < X ¯ + t 1 α 2 S n ) = 1 α , {\displaystyle P\left({\overline {X}}-t_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}}<\mu <{\overline {X}}+t_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}}\right)=1-\alpha ,}

gdzie:

Zobacz w Wikiźródłach tablicę rozkładu Studenta
  • n {\displaystyle n} – liczebność próby losowej,
  • X ¯ {\displaystyle {\overline {X}}} – średnia z próby losowej,
  • S {\displaystyle S} – odchylenie standardowe z próby,
  • t 1 α 2 {\displaystyle t_{1-{\frac {\alpha }{2}}}} to kwantyl rzędu 1 α 2 {\displaystyle 1-{\frac {\alpha }{2}}} rozkład Studenta z n 1 {\displaystyle n-1} stopniami swobody.

Zwykle stosuje się ten wzór dla małej próby ( n < 30 ) . {\displaystyle (n<30).} Tak naprawdę działa on dla każdej wielkości próby, jednak dla dużych prób można przybliżyć rozkład t Studenta rozkładem normalnym, co jest łatwiejsze do wyliczenia a dające niemal takie same wartości (patrz niżej).

Nieznane odchylenie standardowe – duża próba (n > 30)

Cecha ma w populacji rozkład normalny N ( μ , σ ) , {\displaystyle N(\mu ,\sigma ),} przy czym odchylenie standardowe σ {\displaystyle \sigma } jest nieznane, a próba jest duża (n>30). Granica 30 jest czysto umowna, im n {\displaystyle n} jest większe, tym wzór dokładniejszy. Przedział ufności dla parametru m tego rozkładu ma postać:

P ( X ¯ u 1 α 2 S n < μ < X ¯ + u 1 α 2 S n ) = 1 α , {\displaystyle P\left({\overline {X}}-u_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}}<\mu <{\overline {X}}+u_{1-{\frac {\alpha }{2}}}{\frac {S}{\sqrt {n}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • X ¯ {\displaystyle {\overline {X}}} – średnia z próby losowej,
  • S {\displaystyle S} – odchylenie standardowe z próby,
  • u 1 α 2 {\displaystyle u_{1-{\frac {\alpha }{2}}}} – statystyka ze zmienną losową o rozkładzie normalnym N ( 0 , 1 ) . {\displaystyle N(0,1).}

Przedział ufności dla wariancji

Poniższy wzór pozwala wyznaczyć przedział ufności dla wariancji w populacji o rozkładzie normalnym N ( m , σ ) {\displaystyle N(m,\sigma )}

P ( n S 2 χ 1 α 2 , n 1 2 < σ 2 < n S 2 χ α 2 , n 1 2 ) = 1 α , {\displaystyle P\left({\frac {nS^{2}}{\chi _{1-{\frac {\alpha }{2}},n-1}^{2}}}<\sigma ^{2}<{\frac {nS^{2}}{\chi _{{\frac {\alpha }{2}},n-1}^{2}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • S {\displaystyle S} – odchylenie standardowe z próby,
  • χ α 2 , n 1 2 {\displaystyle \chi _{{\frac {\alpha }{2}},n-1}^{2}} i χ 1 α 2 , n 1 2 {\displaystyle \chi _{1-{\frac {\alpha }{2}},n-1}^{2}} – statystyki spełniające odpowiednio nierówności:
P ( χ 2 χ α 2 , n 1 2 ) = α 2 , {\displaystyle P\left(\chi ^{2}\geqslant \chi _{{\frac {\alpha }{2}},n-1}^{2}\right)={\frac {\alpha }{2}},}
P ( χ 2 χ 1 α 2 , n 1 2 ) = 1 α 2 . {\displaystyle P\left(\chi ^{2}\geqslant \chi _{1-{\frac {\alpha }{2}},n-1}^{2}\right)=1-{\frac {\alpha }{2}}.}


Zobacz w Wikiźródłach tablicę rozkładu chi-kwadrat

gdzie χ 2 {\displaystyle \chi ^{2}} ma rozkład chi-kwadrat z n 1 {\displaystyle n-1} stopniami swobody.

Podobnie jak poprzednio, zwykle stosuje się ten wzór dla małej próby (n < 30), choć również działa on dla każdej wielkości próby.

Duża próba (n > 30)

Poniższy wzór pozwala wyznaczyć przedział ufności dla wariancji w populacji o rozkładzie normalnym N ( m , σ ) {\displaystyle N(m,\sigma )} dla dużej próby, czyli umownie dla n > 30. {\displaystyle n>30.}

P ( S 1 + u α 2 n < σ < S 1 u α 2 n ) = 1 α , {\displaystyle P\left({\frac {S}{1+{\frac {u_{\alpha }}{\sqrt {2n}}}}}<\sigma <{\frac {S}{1-{\frac {u_{\alpha }}{\sqrt {2n}}}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • S {\displaystyle S} – odchylenie standardowe z próby,
  • u α {\displaystyle u_{\alpha }} – statystyka spełniająca warunek:
P ( u α < U < u α ) = 1 α , {\displaystyle P(-u_{\alpha }<U<u_{\alpha })=1-\alpha ,}

gdzie U {\displaystyle U} jest zmienną losową o rozkładzie normalnym N ( 0 , 1 ) . {\displaystyle N(0,1).}

Przedział ufności dla odsetka (wskaźnik struktury)

Poniższy wzór pozwala wyznaczyć przedział ufności dla odsetka w populacji o rozkładzie normalnym N ( m , σ ) {\displaystyle N(m,\sigma )}

P ( m n u 1 α 2 m n ( 1 m n ) n < p < m n + u 1 α 2 m n ( 1 m n ) n ) = 1 α , {\displaystyle P\left({\frac {m}{n}}-u_{1-{\frac {\alpha }{2}}}{\sqrt {\frac {{\frac {m}{n}}(1-{\frac {m}{n}})}{n}}}<p<{\frac {m}{n}}+u_{1-{\frac {\alpha }{2}}}{\sqrt {\frac {{\frac {m}{n}}(1-{\frac {m}{n}})}{n}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • m {\displaystyle m} – liczebność wybranej grupy z próby,
  • u α {\displaystyle u_{\alpha }} – statystyka spełniającą warunek:
P ( u α < U < u α ) = 1 α {\displaystyle P(-u_{\alpha }<U<u_{\alpha })=1-\alpha } gdzie U {\displaystyle U} jest zmienną losową o rozkładzie normalnym N ( 0 , 1 ) . {\displaystyle N(0,1).}

Przedział ufności dla współczynnika korelacji

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N ( m , σ ) . {\displaystyle N(m,\sigma ).} Tak jak poprzednio, działa on dla dowolnej próby, choć jest zwykle stosowany tylko dla prób małych ( n < 30 ) . {\displaystyle (n<30).}

P ( Z u α 1 n 3 < ρ < Z + u α 1 n 3 ) = 1 α , {\displaystyle P\left(Z-u_{\alpha }{\frac {1}{\sqrt {n-3}}}<\rho <Z+u_{\alpha }{\frac {1}{\sqrt {n-3}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • u α {\displaystyle u_{\alpha }} – statystyka spełniająca warunek:
P ( u α < U < u α ) = 1 α {\displaystyle P(-u_{\alpha }<U<u_{\alpha })=1-\alpha } gdzie U {\displaystyle U} jest zmienną losową o rozkładzie normalnym N ( 0 , 1 ) , {\displaystyle N(0,1),}
  • Z = 1 2 ln 1 + r 1 r , {\displaystyle Z={\frac {1}{2}}\ln {\frac {1+r}{1-r}},}
  • r {\displaystyle r} – współczynnik korelacji.

Duża próba (n > 30)

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika korelacji w populacji o rozkładzie normalnym N ( m , σ ) {\displaystyle N(m,\sigma )}

P ( r u α 1 r 2 n < ρ < r + u α 1 r 2 n ) = 1 α , {\displaystyle P\left(r-u_{\alpha }{\frac {1-r^{2}}{\sqrt {n}}}<\rho <r+u_{\alpha }{\frac {1-r^{2}}{\sqrt {n}}}\right)=1-\alpha ,}

gdzie:

  • n {\displaystyle n} – liczebność próby losowej,
  • u α {\displaystyle u_{\alpha }} jest statystyką spełniającą warunek:
P ( u α < U < u α ) = 1 α {\displaystyle P(-u_{\alpha }<U<u_{\alpha })=1-\alpha } gdzie U {\displaystyle U} jest zmienną losową o rozkładzie normalnym N ( 0 , 1 ) , {\displaystyle N(0,1),}
  • r {\displaystyle r} – współczynnik korelacji.

Przedział ufności dla współczynnika α 1 {\displaystyle \alpha _{1}}

Poniższy wzór pozwala wyznaczyć przedział ufności dla współczynnika α 1 {\displaystyle \alpha _{1}} w populacji o rozkładzie normalnym N ( m , σ ) {\displaystyle N(m,\sigma )}

P ( a 1 t α s u i = 1 n ( X i X ¯ ) 2 < α 1 < a 1 + t α s u i = 1 n ( X i X ¯ ) 2 ) = 1 α , {\displaystyle P\left(a_{1}-t_{\alpha }{\frac {s_{u}}{\sqrt {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}}<\alpha _{1}<a_{1}+t_{\alpha }{\frac {s_{u}}{\sqrt {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}}\right)=1-\alpha ,}

gdzie:

  • X {\displaystyle X} – wartość z próby losowej,
  • X ¯ {\displaystyle {\overline {X}}} – średnia z próby losowej,
  • t α {\displaystyle t_{\alpha }} ma rozkład Studenta z n 2 {\displaystyle n-2} stopniami swobody.

Minimalna liczebność próby

Jeśli chcemy oszacować parametr z określoną dokładnością d , {\displaystyle d,} możemy – po odpowiednich przekształceniach wzorów na przedziały ufności – wyznaczyć liczebność próby losowej potrzebną do osiągnięcia zakładanej dokładności.

Przykład: Wiemy, że wzrost wikipedystów ma rozkład normalny z odchyleniem standardowym 25,28 cm (dane chyba nieprawdziwe). Obliczmy, ilu wikipedystów wystarczy zmierzyć, aby z prawdopodobieństwem 95% wyznaczyć średni wzrost wikipedysty z dokładnością do 5 cm.

Jeśli chcemy uzyskać dokładność 5 cm, należy zadbać o to, aby połowa długości przedziału ufności była mniejsza lub równa niż 5 cm. Ze wzoru na przedział ufności dla rozkładu normalnego o znanym odchyleniu standardowym wynika, że dokładność estymacji powinna spełniać zależność:

d u α σ n . {\displaystyle d\geqslant u_{\alpha }{\frac {\sigma }{\sqrt {n}}}.}

Przekształcamy podaną nierówność, uzyskując pożądany wzór na liczebność próby:

n u α 2 σ 2 d 2 . {\displaystyle n\geqslant {\frac {u_{\alpha }^{2}\sigma ^{2}}{d^{2}}}.}

Podstawiając do wzoru wartości σ {\displaystyle \sigma } = 25,28; d = 5 cm; u α {\displaystyle u_{\alpha }} = 1,96 (wartość obliczona na podstawie tablic rozkładu normalnego), uzyskujemy minimalną wielkość próby na poziomie 99 wikipedystów.

Przypisy

  1. DennisD. Gilliland DennisD., VinceV. Melfi VinceV., A Note on Confidence Interval Estimation and Margin of Error, „Journal of Statistics Education”, 18 (1), 2010, DOI: 10.1080/10691898.2010.11889474, ISSN 1069-1898 [dostęp 2019-03-31]  (ang.).
  2. MaxM. Henrion MaxM., BaruchB. Fischhoff BaruchB., Assessing uncertainty in physical constants, „American Journal of Physics”, 54 (9), 1986, s. 791–798, DOI: 10.1119/1.14447, ISSN 0002-9505 [dostęp 2019-03-30]  (ang.).
  3. a b c RinkR. Hoekstra RinkR. i inni, Robust misinterpretation of confidence intervals, „Psychonomic Bulletin & Review”, 5, 2014, s. 1157–1164, DOI: 10.3758/s13423-013-0572-3, ISSN 1531-5320, PMID: 24420726 [dostęp 2017-01-06] .
  4. Problematic interpretations of confidence intervals - Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 15 marca 2014 [dostęp 2017-01-06]  (ang.).
  5. Abraham Lincoln and confidence intervals - Statistical Modeling, Causal Inference, and Social Science, „Statistical Modeling, Causal Inference, and Social Science”, 23 listopada 2016 [dostęp 2017-01-06]  (ang.).
  6. a b SanderS. Greenland SanderS. i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI: 10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID: 27209009, PMCID: PMC4877414 [dostęp 2017-02-09]  (ang.).
  7. Ulrich K.U.K. Müller Ulrich K.U.K., AndriyA. Norets AndriyA., Credibility of Confidence Sets in Nonstandard Econometric Problems, „Econometrica”, 6, 2016, s. 2183–2213, DOI: 10.3982/ECTA14023, ISSN 1468-0262 [dostęp 2017-01-06]  (ang.).
  8. GeoffG. Cumming GeoffG., JenniferJ. Williams JenniferJ., FionaF. Fidler FionaF., Replication and Researchers’ Understanding of Confidence Intervals and Standard Error Bars, „Understanding Statistics”, 3 (4), 2004, s. 299–311, DOI: 10.1207/s15328031us0304_5, ISSN 1534-844X [dostęp 2017-04-01] .
  9. GeoffG. Cumming GeoffG., RobertR. Maillardet RobertR., Confidence intervals and replication: Where will the next mean fall?, „Psychological Methods”, 11 (3), s. 217–227, DOI: 10.1037/1082-989x.11.3.217 [dostęp 2017-02-27] .
  10. MaxM. Henrion MaxM., BaruchB. Fischhoff BaruchB., Assessing uncertainty in physical constants, „American Journal of Physics”, 9, 1986, s. 791–798, DOI: 10.1119/1.14447, ISSN 0002-9505 [dostęp 2017-01-06] .
Kontrola autorytatywna (metoda statystyczna):
  • LCCN: sh85030927
  • GND: 4644801-9
  • BNCF: 52493
  • J9U: 987007555327405171
Encyklopedia internetowa:
  • Britannica: science/confidence-interval
  • NE.se: konfidensintervall
  • SNL: konfidensintervall
  • Catalana: 0226011
  • DSDE: konfidensinterval