Twierdzenie Bayesa

Ilustracja twierdzenia Bayesa przy pomocy dwóch nakładanych na siebie drzew decyzyjnych

Twierdzenie Bayesa – twierdzenie teorii prawdopodobieństwa, wiążące prawdopodobieństwa warunkowe dwóch zdarzeń warunkujących się nawzajem, sformułowane przez Thomasa Bayesa. Twierdzenie stanowi podstawę teoretyczną wnioskowania bayesowskiego, oraz sieci bayesowskich stosowanych w eksploracji danych.

Wzór Bayesa

Twierdzenie (wzór) Bayesa w swej podstawowej formie mówi, że[1]

P ( A B ) = P ( B A ) P ( A ) P ( B ) , {\displaystyle {\mathsf {P}}(A\mid B)={\frac {{\mathsf {P}}(B\mid A)\,{\mathsf {P}}(A)}{{\mathsf {P}}(B)}},}
(B)

gdzie A {\displaystyle A} i B {\displaystyle B} są zdarzeniami oraz P ( B ) > 0 , {\displaystyle {\mathsf {P}}(B)>0,} przy czym

  • P ( A B ) {\displaystyle {\mathsf {P}}(A\mid B)} oznacza prawdopodobieństwo warunkowe, tj. prawdopodobieństwo zajścia zdarzenia A , {\displaystyle A,} o ile zajdzie zdarzenie B . {\displaystyle B.}
  • P ( B A ) {\displaystyle {\mathsf {P}}(B\mid A)} oznacza prawdopodobieństwo zajścia zdarzenia B , {\displaystyle B,} o ile zajdzie zdarzenie A . {\displaystyle A.}

Dowód

Z definicji prawdopodobieństwa warunkowego

P ( A B ) = P ( A B ) P ( B ) . {\displaystyle {\mathsf {P}}(A\mid B)={\frac {{\mathsf {P}}(A\cap B)}{{\mathsf {P}}(B)}}.}

W przypadku, gdy P ( A ) = 0 , {\displaystyle {\mathsf {P}}(A)=0,} twierdzenie zachodzi, ponieważ wtedy P ( A B ) = 0. {\displaystyle P(A\cap B)=0.} Załóżmy zatem, że P ( A ) > 0. {\displaystyle {\mathsf {P}}(A)>0.} Wtedy

P ( B A ) = P ( A B ) P ( A ) . {\displaystyle {\mathsf {P}}(B\mid A)={\frac {{\mathsf {P}}(A\cap B)}{{\mathsf {P}}(A)}}.}

Stąd

P ( A B ) P ( B ) = P ( A B ) = P ( B A ) P ( A ) . {\displaystyle {\mathsf {P}}(A\mid B)\cdot {\mathsf {P}}(B)={\mathsf {P}}(A\cap B)={\mathsf {P}}(B\mid A)\cdot {\mathsf {P}}(A).}

Dzieląc stronami powyższą równość przez P ( B ) , {\displaystyle {\mathsf {P}}(B),} otrzymujemy tezę.

Wersja twierdzenia dla wielu zdarzeń

Niech B , T 1 , , T n {\displaystyle B,T_{1},\dots ,T_{n}} będą takimi zdarzeniami, że

P ( B ) > 0 , B i = 1 n T i {\displaystyle {\mathsf {P}}(B)>0,\quad B\subset \bigcup _{i=1}^{n}T_{i}}    i    T i T j = ( i j ) . {\displaystyle T_{i}\cap T_{j}=\varnothing \quad (i\not =j).}

Wtedy

P ( T j | B ) = P ( B | T j ) P ( T j ) i = 1 n P ( B | T i ) P ( T i ) . {\displaystyle {\mathsf {P}}(T_{j}|B)={\frac {{\mathsf {P}}(B|T_{j}){\mathsf {P}}(T_{j})}{\sum _{i=1}^{n}{\mathsf {P}}(B|T_{i}){\mathsf {P}}(T_{i})}}.} [2]

W szczególności, gdy A {\displaystyle A} jest dowolnym zdarzeniem oraz T 1 = A , T 2 = A , {\displaystyle T_{1}=A,T_{2}=A',} to

P ( A B ) = P ( B A ) P ( A ) P ( B A ) P ( A ) + P ( B A ) P ( A ) . {\displaystyle {\mathsf {P}}(A\mid B)={\frac {{\mathsf {P}}(B\mid A)\,{\mathsf {P}}(A)}{{\mathsf {P}}(B\mid A){\mathsf {P}}(A)+{\mathsf {P}}(B\mid A'){\mathsf {P}}(A')}}.}
(B2)

Dowód

Ze wzoru Bayesa (B) wynika, że

P ( T i | B ) = P ( B | T i ) P ( T i ) P ( B ) . {\displaystyle {\mathsf {P}}(T_{i}|B)={\mathsf {P}}(B|T_{i})\cdot {\frac {{\mathsf {P}}(T_{i})}{{\mathsf {P}}(B)}}.}

Stąd z twierdzenia o prawdopodobieństwie całkowitym mamy

P ( B ) = P ( B i = 1 n T i ) = P ( i = 1 n B T i ) = i = 1 n P ( B T i ) = i = 1 n P ( B | T i ) P ( T i ) . {\displaystyle {\mathsf {P}}(B)={\mathsf {P}}\left(B\cap \bigcup _{i=1}^{n}T_{i}\right)={\mathsf {P}}\left(\bigcup _{i=1}^{n}B\cap T_{i}\right)=\sum _{i=1}^{n}{\mathsf {P}}(B\cap T_{i})=\sum _{i=1}^{n}{\mathsf {P}}(B|T_{i}){\mathsf {P}}(T_{i}).}

Zastosowania

Przykład 1

Niech B {\displaystyle B} będzie zdarzeniem „u pacjenta występuje wysoka gorączka”, a A {\displaystyle A} będzie zdarzeniem „pacjent ma grypę”. Jeśli znane są odsetek gorączkujących P ( B ) {\displaystyle {\mathsf {P}}(B)} i odsetek chorych na grypę P ( A ) {\displaystyle {\mathsf {P}}(A)} w całej populacji, oraz odsetek gorączkujących wśród chorych na grypę, tj. P ( B | A ) , {\displaystyle {\mathsf {P}}(B|A),} to twierdzenie Bayesa pozwala wyznaczyć odsetek chorych na grypę wśród gorączkujących P ( A | B ) . {\displaystyle {\mathsf {P}}(A|B).}

Na przykład jeżeli wiadomo, że P ( B ) = 0 , 2 , P ( A ) = 0 , 1 {\displaystyle {\mathsf {P}}(B)=0{,}2,{\mathsf {P}}(A)=0{,}1} oraz P ( B | A ) = 0 , 7 , {\displaystyle {\mathsf {P}}(B|A)=0{,}7,} to na mocy wzoru (B):

P ( A B ) = P ( B A ) P ( A ) P ( B ) = 0 , 7 0 , 1 0 , 2 = 0 , 35 {\displaystyle {\mathsf {P}}(A\mid B)={\frac {{\mathsf {P}}(B\mid A)\,{\mathsf {P}}(A)}{P(B)}}={\frac {0{,}7\cdot 0{,}1}{0{,}2}}=0{,}35}

Przykład 2

Twierdzenia Bayesa można użyć do interpretacji rezultatów badania przy użyciu testów wykrywających narkotyki. Załóżmy, że przy badaniu narkomana test wypada pozytywnie w 99% przypadków, zaś przy badaniu osoby nie zażywającej narkotyków wypada negatywnie w 99% przypadków. Pewna firma postanowiła przebadać swoich pracowników takim testem, wiedząc, że 0,5% z nich to narkomani. Chcemy obliczyć prawdopodobieństwo, że osoba, u której test wypadł pozytywnie, rzeczywiście zażywa narkotyki. Oznaczmy następujące zdarzenia:

  • D {\displaystyle D} – dana osoba jest narkomanem,
  • N {\displaystyle N} – dana osoba nie jest narkomanem,
  • + {\displaystyle +} – u danej osoby test dał wynik pozytywny,
  • {\displaystyle -} – u danej osoby test dał wynik negatywny.

Wiemy, że:

  • P ( D ) = 0,005 , {\displaystyle {\mathsf {P}}(D)=0{,}005,} gdyż 0,5% pracowników to narkomani,
  • P ( N ) = 1 P ( D ) = 0,995 , {\displaystyle {\mathsf {P}}(N)=1-{\mathsf {P}}(D)=0{,}995,}
  • P ( + | D ) = 0 , 99 , {\displaystyle {\mathsf {P}}(+|D)=0{,}99,} gdyż taką skuteczność ma test przy badaniu narkomana,
  • P ( | N ) = 0 , 99 , {\displaystyle {\mathsf {P}}(-|N)=0{,}99,} gdyż taką skuteczność ma test przy badaniu osoby niebędącej narkomanem,
  • P ( + | N ) = 1 P ( | N ) = 0 , 01. {\displaystyle {\mathsf {P}}(+|N)=1-{\mathsf {P}}(-|N)=0{,}01.}

Mając te dane, chcemy obliczyć prawdopodobieństwo, że osoba, u której test wypadł pozytywnie, rzeczywiście jest narkomanem. Ze wzoru (B2) wynika, że

P ( D | + ) = P ( D ) P ( + | D ) P ( + ) = P ( + | D ) P ( D ) P ( + | D ) P ( D ) + P ( + | N ) P ( N ) = 0 , 99 0,005 0 , 99 0,005 + 0 , 01 0,995 = 0,332 2. {\displaystyle {\mathsf {P}}(D|+)={\frac {{\mathsf {P}}(D){\mathsf {P}}(+|D)}{{\mathsf {P}}(+)}}={\frac {{\mathsf {P}}(+|D){\mathsf {P}}(D)}{{\mathsf {P}}(+|D){\mathsf {P}}(D)+{\mathsf {P}}(+|N){\mathsf {P}}(N)}}={\frac {0{,}99\cdot 0{,}005}{0{,}99\cdot 0{,}005+0{,}01\cdot 0{,}995}}=0{,}3322.}

Mimo potencjalnie wysokiej skuteczności testu, prawdopodobieństwo, że narkomanem jest badany pracownik, u którego test dał wynik pozytywny, jest równe około 33%, więc jest nawet bardziej prawdopodobnym, że taka osoba nie zażywa narkotyków. Ten przykład pokazuje, dlaczego ważne jest, aby nie polegać na wynikach tylko pojedynczego testu.

Innymi słowy, pozorny paradoks polegający na dużej dokładności testu (99% wykrywalności narkomanów wśród narkomanów i nieuzależnionych wśród nieuzależnionych) i niskiej dokładności badania bierze się stąd, że w badanej próbie tylko niewielka część osób to narkomani.

Przykładowo jeśli badamy 1000 osób, 0,5% z nich, czyli 5 to narkomani, a 995 nie. Natomiast test wskaże jako narkomanów 1% nieuzależnionych (995 · 1% ≈ 10), oraz 99% uzależnionych (5 · 99% ≈ 5). Ostatecznie test wypadł pozytywnie dla 15 osób, jednak tylko 5 z nich to narkomani.

Interpretacje

Prawdopodobieństwo subiektywistyczne

W interpretacji subiektywistycznej jest twierdzeniem wręcz podstawowym[3]. Otóż niech X {\displaystyle X} będzie pewnym zdarzeniem, T {\displaystyle T} zaś pewną teorią.

P ( X ) {\displaystyle P(X)} jest obserwowanym prawdopodobieństwem zdarzenia X , {\displaystyle X,} zaś P ( X | T ) {\displaystyle P(X|T)} to prawdopodobieństwo, że zdarzenie X {\displaystyle X} nastąpi według teorii T . {\displaystyle T.} Z kolei P ( T ) {\displaystyle P(T)} to prawdopodobieństwo, że teoria T {\displaystyle T} jest prawdziwa, P ( T | X ) {\displaystyle P(T|X)} to prawdopodobieństwo, że teoria T {\displaystyle T} jest prawdziwa, jeśli zaobserwowano X . {\displaystyle X.}

Zdania typu „prawdopodobieństwo, że teoria T {\displaystyle T} jest prawdziwa” są z punktu widzenia interpretacji obiektywistycznej nie do przyjęcia – teoria jest prawdziwa (prawdopodobieństwo równe jedności) lub też nie (prawdopodobieństwo równe zeru), czyli prawdziwość teorii nie jest zdarzeniem losowym.

Przypisy

  1. A. Stuart, K. Ord: Kendall’s Advanced Theory of Statistics: Volume I – Distribution Theory. Edward Arnold, 1994, s. § 8.7.
  2. W.W. Krysicki W.W. i inni, Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, Wydawnictwo Naukowe PWN, 1998, s. 29, ISBN 978-83-01-14291-9  (pol.).
  3. Aleksandra Kurek et al: Szkice do bayesowskiej metodologii współczesnej kosmologii. 2009. [dostęp 2017-01-19].

Linki zewnętrzne

  • ThomasT. Bayes ThomasT., An essay towards solving a Problem in the Doctrine of Chances [online] [dostęp 2018-10-15] [zarchiwizowane z adresu 2011-04-10]  (ang.). (Opracowanie Bayesa w zapisie oryginalnym)
  • JamesJ. Joyce JamesJ., Bayes’ Theorem, [w:] Stanford Encyclopedia of Philosophy, CSLI, Stanford University, 30 września 2003, ISSN 1095-5054 [dostęp 2017-12-30]  (ang.). (Twierdzenie Bayesa)
  • Grant Sanderson, Bayes theorem, 3blue1brown, YouTube, 22 grudnia 2019 [dostęp 2021-03-14].
  • GND: 4144221-0
  • BNCF: 73793
  • Britannica: topic/Bayess-theorem
  • SEP: bayes-theorem
  • БРЭ: 1852607
  • NE.se: bayes-sats
  • SNL: Bayes_teorem
  • VLE: bayeso-teorema