Wnioskowanie bayesowskie

Portret Thomasa Bayesa, prawdopodobnie
Thomas Bayes

Wnioskowanie bayesowskie (statystyka bayesowska) – metoda wnioskowania statystycznego, w której korzysta się z twierdzenia Bayesa do aktualizowania prawdopodobieństwa subiektywnego hipotez w oparciu o dotychczasowe prawdopodobieństwo oraz nowe dane. Wnioskowanie bayesowskie znajduje zastosowanie w wielu dziedzinach, takich jak badania naukowe, inżynieria, filozofia, medycyna, sport czy prawo.

Twierdzenie Bayesa

Twierdzenie Bayesa opisuje zależność pomiędzy prawdopodobieństwem warunkowym zdarzeń A | B {\displaystyle A|B} oraz B | A . {\displaystyle B|A.} We wnioskowaniu bayesowskim używa się następujących podstawień:

P ( H E ) = P ( E H ) P ( H ) P ( E ) {\displaystyle P(H\mid E)={\frac {P(E\mid H)\cdot P(H)}{P(E)}}}

Wzór wyraża następującą zależność: prawdopodobieństwo hipotezy H w świetle danych E, odpowiada prawdopodobieństwu danych E przy założeniu hipotezy H, pomnożonemu przez dotychczasowe prawdopodobieństwo hipotezy H, i podzielonemu przez prawdopodobieństwo danych E.

Po sformułowaniu hipotezy naukowej jako modelu matematycznego możemy przy pomocy twierdzenia Bayesa wielokrotnie aktualizować nowe prawdopodobieństwo (a posteriori) tej hipotezy w świetle napływających danych i jej dotychczasowego prawdopodobieństwa (a priori). Zjawiska uważane za mało prawdopodobne a priori wymagają odpowiednio silnych dowodów, aby zmienić przekonanie badacza. Metoda ta pozwala także na dowolne określenie a priori oczekiwanych rozkładów tych parametrów modelu, które nie mają bezpośredniego znaczenia poznawczego, w celu zwiększenia szybkości i precyzji obliczeń.

Metody bayesowskie mają szereg zastosowań praktycznych – pozwalają obliczyć, z użyciem matematycznego modelu badanego zjawiska wraz z jego prawdopodobieństwem, m.in. oszacowania, prognozy i przedziały wiarygodności nieznanych parametrów, lub weryfikować hipotezy statystyczne z użyciem czynnika Bayesa.

Metoda wnioskowania bayesowskiego

Związek z metodami wnioskowania częstościowego oraz innymi podejściami

Zgodnie z argumentami Harolda Jeffreysa i Abrahama Walda, wszystkie metody wnioskowania statystycznego są szczególnym przypadkiem metod bayesowskich[1]. Podejście częstościowe (paradygmat Fishera i Neymana/Pearsona) to zbiór gotowych modeli statystycznych pasujących do wielu typowych rodzajów problemów, opartych o bardzo specyficzne założenia filozoficzne, skupione na długoterminowej kontroli błędów decyzyjnych (przede wszystkim tzw. błędy pierwszego i drugiego rodzaju). Ich właściwości są często nieintuicyjne, nie uprawniają na przykład w sensie technicznym do wyciągania wprost wniosków z wartości p na temat subiektywnego prawdopodobieństwa hipotez[2]. Podejście bayesowskie natomiast pozwala na wyciąganie takich epistemologicznych wniosków.

Prawdopodobieństwo subiektywne

Przykład użyty przez Savage (1961) ilustruje znaczenie prawdopodobieństwa subiektywnego[3]. Polecił on czytelnikom wyobrażenie sobie trzech eksperymentów statystycznych:

  1. Ekspert z dziedziny muzyki twierdzi, że jest zdolny odróżnić muzykę Haydna od Mozarta na podstawie dowolnej strony z zapisem nutowym tych kompozytorów. W dziesięciu próbach wykonuje to zadanie poprawnie za każdym razem.
  2. Kobieta, która lubi dodawać mleko do herbaty, uważa, że jest w stanie rozpoznać, czy do kubka wlano najpierw herbatę czy mleko. W dziesięciu próbach, rozpoznaje to prawidłowo w każdym przypadku.
  3. Twój nietrzeźwy znajomy stwierdza, że jest w stanie przewidzieć wynik rzutu monetą. W dziesięciu próbach przeprowadzonych w celu sprawdzenia jego słów, właściwie przewiduje wszystkich dziesięć rzutów.

Ortodoksyjny, jednostronny test istotności w podejściu częstościowym w każdym powyższym eksperymencie każe odrzucić hipotezę zerową na poziomie istotności niższym niż 2−10. Daje zatem przesłanki by uznać każdy z wyników za dowód na rzecz przedstawionych twierdzeń. Jednakże w każdej kolejnej sytuacji badana hipoteza może wydawać się czytelnikowi coraz mniej wiarygodna, i wymagająca większej liczby dowodów by być przekonującą. Choć konstrukcja wszystkich tych eksperymentów jest z perspektywy statystyki identyczna, przedstawione przykłady zdaniem Savage’a demonstrują, że ludzie w praktyce stosują prawdopodobieństwo subiektywne, i przypisują każdemu twierdzeniu pewne prawdopodobieństwo a priori, które powinno być uwzględniane w procedurach wnioskowania statystycznego. Wnioskowanie bayesowskie jest jednym z rozwiązań, które na to pozwalają[4].

Formalny opis wnioskowania bayesowskiego

Definicje

  • x , {\displaystyle x,} jednostkowa obserwacja. Może to być wektor wartości.
  • θ , {\displaystyle \theta ,} parametr obserwacji, tj. x p ( x θ ) . {\displaystyle x\sim p(x\mid \theta ).} Może to być wektor parametrów.
  • α , {\displaystyle \alpha ,} hiperparametr parametru, tj. θ p ( θ α ) . {\displaystyle \theta \sim p(\theta \mid \alpha ).} Może to być wektor hiperparametrów.
  • X , {\displaystyle \mathbf {X} ,} zbiór n {\displaystyle n} jednostkowych obserwacji, tj. x 1 , , x n . {\displaystyle x_{1},\ldots ,x_{n}.}
  • x ~ , {\displaystyle {\tilde {x}},} nowa jednostkowa obserwacja, której rozkład ma być prognozowany.

Wnioskowanie bayesowskie

  • Rozkład a priori (in. aprioryczny, zaczątkowy[5]) to rozkład parametrów przyjęty przed zaobserwowaniem jakichkolwiek danych, tj. p ( θ α ) . {\displaystyle {\color {Red}p(\theta \mid \alpha )}.} Reprezentuje wiedzę z jaką badacz rozpoczyna badanie.
  • Kryterium wyboru rozkładu a priori może być niejasne. W przypadku niepewności można zastosować rozkłady nieinformacyjne, np. rozkład aprioryczny Jeffreysa lub rozkład jednostajny.
  • Rozkład z próby to rozkład obserwacji, zależnych od ich parametrów, tj. p ( X θ ) . {\displaystyle {\color {NavyBlue}p(\mathbf {X} \mid \theta )}.} Nazywa się go również wiarygodnością, szczególnie gdy rozpatruje się ją jako funkcję parametrów, tj. L ( θ X ) = p ( X θ ) . {\displaystyle \operatorname {L} (\theta \mid \mathbf {X} )={\color {NavyBlue}p(\mathbf {X} \mid \theta )}.}
  • Wiarygodność brzegowa (nazywana też dowodem) to rozkład zaobserwowanych danych w gęstości brzegowej względem parametrów, tj. p ( X α ) = θ p ( X θ ) p ( θ α ) d θ . {\displaystyle p(\mathbf {X} \mid \alpha )=\int _{\theta }{\color {NavyBlue}p(\mathbf {X} \mid \theta )}{\color {Red}p(\theta \mid \alpha )}\operatorname {d} \!\theta .}
  • Rozkład a posteriori (in. wynikowy[5]) to rozkład parametrów po uwzględnieniu zaobserwowanych danych. Jest określany przy pomocy twierdzenia Bayesa:
p ( θ X , α ) = p ( X θ ) p ( θ α ) p ( X α ) p ( X θ ) p ( θ α ) {\displaystyle p(\theta \mid \mathbf {X} ,\alpha )={\frac {{\color {NavyBlue}p(\mathbf {X} \mid \theta )}{\color {Red}p(\theta \mid \alpha )}}{p(\mathbf {X} \mid \alpha )}}\propto {\color {NavyBlue}p(\mathbf {X} \mid \theta )}{\color {Red}p(\theta \mid \alpha )}}

Można to wyrazić słownie jako „rozkład a posteriori jest proporcjonalny do rozkładu a priori pomnożonego przez wiarygodność”, albo „rozkład a posteriori równy jest rozkładowi a priori pomnożonemu przez wiarygodność i podzielonemu przez wiarygodność brzegową”.

Prognozowanie bayesowskie

  • Rozkład prognostyczny a posteriori to rozkład nowej obserwacji w gęstości krańcowej względem rozkładu a posteriori:
p ( x ~ X , α ) = θ p ( x ~ θ ) p ( θ X , α ) d θ {\displaystyle p({\tilde {x}}\mid \mathbf {X} ,\alpha )=\int _{\theta }p({\tilde {x}}\mid \theta )p(\theta \mid \mathbf {X} ,\alpha )\operatorname {d} \!\theta }
  • Rozkład prognostyczny a priori to, analogicznie, rozkład nowej obserwacji w gęstości krańcowej względem rozkładu a priori:
p ( x ~ α ) = θ p ( x ~ θ ) p ( θ α ) d θ {\displaystyle p({\tilde {x}}\mid \alpha )=\int _{\theta }p({\tilde {x}}\mid \theta ){\color {Red}p(\theta \mid \alpha )}\operatorname {d} \!\theta }

Rezultatem prognozowania bayesowskiego nie jest punkt, ale cały rozkład prawdopodobieństwa wartości, jakie mogą przyjmować obserwacje.

Zastosowania

Metody bayesowskie są stosowane m.in. w uczeniu maszynowym i sztucznej inteligencji, klasyfikacji statystycznej (np. rozpoznawaniu spamu), badaniach naukowych czy prognozach wyborczych, medycznych lub sportowych.

Narzędzia, które pozwalają stosować statystyki bayesowskie w badaniach naukowych, to m.in. wolne i otwarte oprogramowanie takie jak język programowania R oraz zbudowany na bazie R pakiet statystyczny z graficznym interfejsem użytkownika JASP[6].

Przypisy

  1. AbrahamA. Wald AbrahamA., Statistical Decision Functions, „The Annals of Mathematical Statistics”, 20 (2), 1949, s. 165–205, JSTOR: 2236853 [dostęp 2017-01-13] .
  2. Jesper W.J.W. Schneider Jesper W.J.W., Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI: 10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-13]  (ang.).
  3. Leonard J.L.J. Savage Leonard J.L.J., The Foundations of Statistics Reconsidered, The Regents of the University of California, 1961 [dostęp 2017-01-13]  (ang.).
  4. James O. Berger: Statistical Decision Theory and Bayesian Analysis. Springer Science & Business Media, 1985-08-21, s. 2. ISBN 978-0-387-96098-2. [dostęp 2017-01-13]. (ang.).
  5. a b Roman J.R.J. Nowak Roman J.R.J., Statystyka dla fizyków, Warszawa: Wydaw. Naukowe PWN, 2002, s. 527, ISBN 978-83-01-13702-1 [dostęp 2024-02-18] .
  6. JASP. Enigma Theme. [dostęp 2017-01-22]. (ang.).

Linki zewnętrzne

Kontrola autorytatywna (Wnioskowanie statystyczne):
  • LCCN: sh85012506
  • GND: 4144220-9
  • BNCF: 36249
  • NKC: ph135362
  • J9U: 987007282424705171
Encyklopedia internetowa:
  • NE.se: bayes-inferens
  • Catalana: 0281295